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الإهداء 

مقدمة 

الفصل الأول 

تمثيل المعرفة واسترجاع المعلومات 
نظرة عامة 

1 مقدمة 

11 مراحل تطور تمثيل المعرفة و نظم استرجاع المعلومات 

1 مرحلة زيادة الطلب (بداية الأربعينات إلى بداية الخمسينات) 
22 االنمو المتسارع (الخمسينات حتى الثانينات) 

53 مرحلةإزالة الغموض 1980 - 1990 

1.1.4 عصر الشبكات (التسعينات حتى الآن) 


12 مفاهيم أساسية 


1 هرم المعرفة 

2 تثيل المعلومات 

3 الحاجة والطلب والاسترجاع 

4 العصر الرقمي 

3 مفاهيم مرتبطة بمجال استرجاع المعلومات 
1 تنظيم المعلومات 


1.3.2 استرجاع المعلومات 
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65 
65 
65 
72 
75 
77 


80 


83 
85 
86 
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3 قواعد البيانات 

4 آليات البحث 

Language اللغة‎ 5 

6 واجهة التعامل Interface‏ 

المصادر 

الفصل الثاني 

مشكلة التمثيل واسترجاع المعلومات 

2 مقدمة 

1 المشكلة الأساسية لتمثيل واسترجاع المعلومات 
1 الجانب الرياضي 

2 الجانب الإجرائي 

2.2 عملية تمثيل واسترجاع المعلومات 
2.3 تحديات التمثيل واسترجاع المعلومات 
المصادر 

الفصل الثالث 


تمثيل المعرفة: قضايا أساسية 


مقدمة 
طرق التمثيل 
التكشيف Indexing‏ 
أهمية الكشافات 
نظام التكشيف 
المدخللات 
المجموعات 


3.1 


اكالكام 


3-1.2 
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التجهيزات 

Indexers المكشفون‎ 

Indexers المكشفون‎ 

عمليات التحليل والتكشيف 

المخرجات 

التكشيف ونظم تمثيل واسترجاع المعلومات 
العلاقة بين التكشيف والاستخلاص والبحث 
التكشيف الآلي والأتوماتيكي 

التكشيف في بيئة الروابط الفائقة 

التوسيم الاجتماعي 

التقسيم إلى فئات 

آناط التقسيم إلى فئات 

مبادئ التقسيم إلى فئات 

العلاقة التي تجمع بين الاتجاهين 

Summarization التلخيص‎ 

Abstracts المستخلصات‎ 


Summaries التلخيص‎ 

Extacts الاشتقاقات‎ 

الملخص الواني للموقع (موم) 

أنواع الكشافات 

تقسيم الكشافات وفقاً لطبيعة المادة ا مكشفة 
كشافات الكتب 


كشافات المسلسلاات 


3012 


312:3 


3.1.4.1 


3.1.4.2 


3.2 


3.3 


3.3.1 
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3.4.1 
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5.3 كشافات الاستشهادات المرجعية 
4 كشافات النصوص 
5 كشافات مواقع الإنترنت 
2 التقسيم وفقاً لأنواع المداخل المكشفة 
1 كشافات العناوين 
2 كشافات الموضوعات 
23 كشافات المؤلفين 
I‏ مقايبس ببليومترية 
1. مقاييس بديلة 
4 کشافات الكيانات 
3 تقسيم الكشافات وفقاً لطريقة الترتيب 
1 الترتيب ال حجائي 
22 الترتيب المصنف 
° الكشاف المتسلسل Chain Indexing‏ 
3 الترتيب القاموسي 
Poe 33‏ 
6 الطرق الأخرى لتمثيل المعلومات 
3.6.1 الاستشهادات Citations‏ 
© شبكة المعرفة بمعهد المعلومات العلمية ISI Web of Knowledge‏ 
© المستكشف Scopus‏ 
2 تكشيف سلاسل الحروف 
207 ملخص للاتجاهات الأساسية في تمثيل المعلومات 
المصادر 
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الفصل الرابع 
مصادر البيانات بنظم تمثيل المعرفة 

4 مقدمة 

1 أنواع البيانات 

1 االبيانات غير المهيكلة 

2 البيانات شبه المهيكلة 

3 البيانات المهيكلة 

Metadata Llall 4.2 

1 مفهوم الميتاداتا 

4.2.2 ملامح مصادر المعلومات الرقمية المتاحة على الإنترنت 
4.2.3 ناذج whl‏ الميتاداتا 

4 أهمية الميتاداتا في البيئة الرقمية؟ 

4.3 النصوص الكاملة 

71 تمثيل ole gles‏ النصوص الكاملة 

2 صعوبات تمثيل النصوص الكاملة 

4.4 تمثيل معلومات الوسائط المتعددة 

1 أنواع معلومات الوسائط المتعددة 

2 أساليب ثيل الوسائط المتعددة 

3 هتَحديات تمثيل الوسائط المتعددة 

5 إطار ملخص لتمثيل المعلومات 
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الفصل الخامس 


اللغة في تمثيل واسترجاع المعلومات 


مقدمة 
نظم تكشيف اللغات المقيدة أو المضبوطة 
وظائف اللغة المقيدة 

عيوب نظم اللغة المقيدة 

أنواع نظم التكشيف المقيدة 


Goold dy SI GAS كل‎ + 


* قوائم رؤوس الموضوعات 

* نماذج للإحالات بقوائم رؤوس الموضوعات 
o‏ خطط التصنيف 

٠‏ خطوات التكشيف في نظم الربط المسبق 

Term Rotation تدوير المصطلحات‎ © 


.5 نظم تكشيف الربط اللاحق 


«المكانز 
مقارنة بين المكانز وقوائم رؤوس الموضوعات وخطط التصنيف 
نظم 5 تكشيف اللغة الطبيعية 


طرق التمثيل باللغة الطبيعية 


.5 اشتقاق الأجزاء 
.5 اشتقاق المصطلحات 
.5 اشتقاق الأسئلة 


أسلوب عمل نظم تكشيف اللغة الطبيعية 
أناط نظم تكشيف اللغة الطبيعية 
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189 
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193 
193 
195 
195 
196 
198 
199 
199 
200 
201 
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202 
204 
206 
208 
212 
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2 كشافات العناوين التبادلية 
أ. كشافات الكلمات الدالة في السياق 
ب. كشافات الكلمات الدالة خارج السياق 
fa‏ كشافات ols!‏ الدالة المضافة للسياق 
3 السلتكشيف JV‏ 
المصادر 
الفصل السادس 
لغات تمثيل واسترجاع المعلومات في العصر الرقمي 
6 مقدمة 
6.1 تطور لغات تمثيل واسترجاع المعلومات 
02 لاذا نحتاج إلى اللغة الطبيعية والمضبوطة معاً 
6.2.1 قضية المترادفات 
2 قضية المشترك اللفظي 
6.2.3 قضية البحث الشامل 
4 قضية البنية 
5 قضية الدقة 
6 قضية التحديث 
6 قضية الكلفة 
7 قضية التوافق 
6.3 لغات تمثيل واستر جاع المعلومات في العصر الرقمي 
1 علم التقسيم 
le 2‏ المصطلح الاجتماعي 
3 الأنطولوجيات أو علم المصطلح الواحد 
المصادر 
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الفصل السابع 

آليات الاسترجاع وتمثيل الاستفسارات 
مقدمة 

7 آليات البحث 

1 آليات البحث الأساسية 

1 البحث البوليني 

2 البحث الحساس (حساسية الحروف) 

Truncation االبتر‎ 53 

4 البحث بالتقارب 

5 البحث في الحقول 

72 آليات البحث المتقدم 

1 البحث الغامض 

2 البحث بوزن المصطلحات 

73 توسيع الاستفسارات 

7.4 بحث قواعد البيانات المتعددة 

1 الفهارس 

2 البحث في قواعد البيانات المتعددة 

7.5 اختيار آلية البحث 

1 وظائف آليات الاسترجاع 

6 أداء نظام استرجاع المعلومات 

1 آليات الاسترجاع لتحسين التحقيق 

2 أآليات الاسترجاع لتحسين الاستدعاء 

7.7 تمثيل الاستفسارات 
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51 خطوات تمثيل الاستفسارات 
1 تحليل المفاهيم 
2 تنوع (أشكال) المصطلحات 
3 تحويل المصطلحات 
I‏ المطابقة الكاملة Exact Equivalent‏ 
I‏ استخدام المترادفات والمصطلحات المرتبطة 
MI‏ استخدام المصطلح الأوسع Broader Terms‏ 
IV‏ استخدام المصطلح الأضيق Narrower Terms‏ 
-V‏ استخدام الأسماء 
7.8 تطبيق المعاملات البولينية 
7.9 استخدام آليات استرجاع أخرى 
0 صعوبات تثيل الاستفسارات 
1. تحليل المفاهيم 
I‏ اللغة 
al J‏ الاسترجاع 
1 التمثيل الآلي للاستفسارات 
المصادر 
الفصل الثامن 
أساليب الاسترجاع 
مقدمة 
8.1 الاسترجاع من خلال البحث 
1 ملامح البحث 
2 أنواع البحث 
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286 
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3 استراتيجيات البحث 
1 استراتيجية أعمدة البناء 
2 استراتيجية كرة الثلج 
3 استراتيجة التجزيء المتوالي 
4 استراتيجية الوجه الأكثر تحديداً 
8.1.4 نحو الاستراتيجية الأكثر ملاءمة وسرعة 
8.2 الاسترجاع بالتصفح 
1 ماهو التصفح 
2 أنواع التصفح 
* التصفح وفقاً للترتيب 
* التصفح بالمنطقة 
* التصفح بالمناطق البارزة 
3 استراتيجيات التصفح 
8.2.3.1 المسح Scan‏ 
Observation 42> | 8.2.3.2‏ 
3 الإبحار Navigation‏ 
4 الراقبة / المتابعة 
4 التكامل بين البحث والتصفح في الاسترجاع 
5 المقارنة بين التصفح والبحث 
I‏ حاجة المعلومات أو الاحتياج المعلوماتي 
1. كفاءة وإمكانات التحسين 
IV‏ الحمل المعرفي 
.V‏ المصادفة 
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310 
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VI‏ الجهد 
3 النهج المتكامل 
المصادر 
الفصل التاسع 
نماذج استرجاع المعلومات 
9 مقدمة 
9.1 المضاهاة: أساس كل ناذج استرجاع المعلومات 
1 ضضاهة المصطلحات 
2 المضاهاة التامة 
3 المضاهاة الحجزتية 
4 المضاهاة بالموضع 
55 المضاهاة النطاقية 
6 مضاهاة مقياس التشابه 
9.2 نموذج المنطق البوليني 
ble 9.21‏ نموذج المنطق البوليني 
2 صعوبات نموذج GAM‏ البوليني 
أولاً: صعوبة التطبيق 
LU‏ صعوبة الاختزال لكل العلاقات بين المصطلحات في ثلاثة أشكال بولينية ثابتة 
WE‏ عدم القدرة على وزن المصطلحات 
رابعاً: القصور في التعبير عن الصلاحية وترتيب النتائج 
خامساً: الصفرية في مقابل الفيضان 
3 نموذج الفراغ الاتجاهي 
1 هزايا نموذج الفراغ الاتجاهي 
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أولاً: إجراء البحث 
ثانياً: وزن المصطلحات 
‘we‏ الترتيب 
رابعاً: التغذية الراجعة للصلاحية Relevance Feedback‏ 
2 عيوب نموذج الفضاء الاتجاهي 
أولاً: افتراض استقلالية المصطلحات 
ثانياً: صعوبة تحديد المترادفات أو علاقات الجمل 
ثالثاً: عدم الموضوعية وتعقيد آليات الوزن 
4 النموذج الاحتمالي 
ble 1‏ النموذج الاحتمالي 
2 عيوب النموذج BEAM‏ 
أولاً: الصلاحية الثنائية 
ثانياً: تحسين نتائج الاسترجاع 
5 التوسع في طرق استرجاع المعلومات 
1 النموذج البوليني الموسع 
2 نموذج المجموعة الضبابية 
9.6 نماذج أخرى لاسترجاع المعلومات 
9.7 ملخص عام cil‏ استرجاع المعلومات 
8 العلاقة بين نماذج استرجاع المعلومات وآليات الاسترجاع 
9 نحو نظم استرجاع معلومات متعددة النماذج 
المصادر 
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الفصل العاشر 
تمثيل المعرفة على الإنترنت 


مقدمة 
10 نشأة أدوات الوصول إلى المعلومات في بيئة الويب وتطورها 
» الجيل الأول 
* الجيل الثاني 
© الجيل الثالث 
© الجيل الرابع 
10.1 الإبحار Navigation‏ 
10.2 التصفح Browsing‏ 
10.3 أدوات البحث والاسترجاع على الويب 
1 أدلة البحث 


2 عر کات البحث 


© الفرق بين محركات وأدلة البحث 

Web Crawling زواحف الويب‎ .1 

Surface Web السطحي‎ cy gil ® 

Deep Web «الويب العميق‎ 

Dark Web الويب المظلم‎ * 

Automated Based Crawlers أ. الزواحف الآلية‎ 

Human Based Crawler ب. الزواحف البشرية‎ 

Hybrid Crawlers Or Mixed Results ت.الزواحف المختلطة‎ 
Indexing and Ranking التكشيف والفرز‎ II 


Page Size حجم الصفحة‎ 
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Spamming الخداع‎ .1 

2. الترتيب وفقاً لموقع المصطلح وشكله 
3. استخدام نصوص الزاوية Anchor Text‏ 
4. استخدام الروابط الفائقة 

Databases قواعد البيانات‎ III 

Search Software برامج البحث‎ IV 


The Interface واجهة التعامل‎ .V 


Sond J} 10.3.3‏ الث لشخص 
10.3.4 ملامح البحث في المحركات 


° الح البسيط Simple Search‏ 
© استخدام مصطلحات محددة Use Specific Terms‏ 
° استخدام علامة الجمع )+( 
* استخدام علامة الطرح (-) 
° استخدام علامة التنصيص )( 
E salle‏ بين العلامات Operators Combining‏ 
1. البحث المعقد باستخدام معاملات المنطق البوليني 
«المعامل أو OR‏ 
À‏ المعامل AND‏ 
* المعامل NOT‏ 
حر كات البحث المتخصصة 


ما وراء المحركات 


10.3 


10.4 


10.4.1 اختيار محركات البحث المستقلة وتجميعها في قائمة موحدة وترتيبها وفقاً لأولويات الدمج 
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Query Load معدلات الاستخدام أو الاستفسار‎ I 
Response Time وقت الاستجابة‎ II 
تقييم النتائج المسترجعة من المحركات المستقلة‎ IV 
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slam Vl 


إلى من غابت عنهم الأعين وسكنوا القلب والعقلء 
أبي الغالي وأستاذي أ.د حشمت قاسم 
رحمهما الله وطيب ثراهما 


وإلى أمي الغالية التي بها نغنى ونستغني. 


+e 0% 


إن لم تكن صاحب فضل 
فلا تنس للناس أفضالهم 
فجْد بنسب الجميل لأهله 
واذكر لكل كريم خصاله 


لقد كان أستاذي الكبير العالم الجليلء أ.د حشمت قاسم» رائد علم المعلومات 
وأفضل من كتب وترجم مؤلفات عالمية في مجال استرجاع المعلومات» الدافع 
الأكبر نحو تأليف هذا الكتاب. فقد راجع أول بحث أعددته باللغة الإنجليزية وآخر 
بالعربية» وكانا في مجال استرجاع المعلومات» فحفزني إلى ضرورة ترجمة أو تأليف 
كتاب في مجال استرجاع المعلومات. 

عكفت أكثر من خمس سنوات على تأليف هذا الكتاب. طالعت خلالها وتابعت 
مايحدث في هذا المجال من تطورات لم يتسع الكتاب لعرضها بالكامل. وأحسبه قد 
بدأ من النقطة التي توقف عندها آخر OLS‏ في هذا المجال ترجمه أستاذنا الفاضل 
أرد حشمث قاسم والذي كان بعنوان الأساسيات استرجاع المعلومات). فوجدت أنه 
من الضروري أن يكون هناك كتاب يكمل ما حدث من تطورات في البيئة الرقمية 
التي شهدت ظهور آليات وأدوات جديدة لمعالجة واسترجاع المعلومات. وقد كانت 
أيضاً كلمات أستاذي رحمة الله عليه دافعاً ومحفزا لإصدار الكتاب. 


وقد تم بناء الهيكل العام لهذا الكتاب من منطلق التعامل مع قضايا تمثيل المعرفة 
ومعالجتها واسترجاعها على مستويين أساسيين هما: طرق المعالجة» والتوجهات 
الحديثة التى تناولتها الدراسات التى تم نشرها فى خلال العقدين الأول والثاني من 
القرن الجديد. 


تم استخدام مصطلح تمثيل المعرفة في هذا الكتاب إشارة إلى المعنى العام 
للمعرفة الذي يتضمن البيانات والمعلومات والمعرفة. لذلك بدأ GES‏ بعرض لهرم 


ويشتمل الكتاب على أحد عشر فصلا تناول كل فصل من هذه الفصول قضية 
أساسية من قضايا تمثيل المعرفة واسترجاعها. ويتم استخدام مصطلح المعرفة هنا 
على اتساعه بما يتضمنه من بيانات ومعلومات. 


وقد بدأ الكتاب في الفصل الأول بعرض لقضايا تمثيل المعرفة من حيث المفاهيم 
والتعريفات الأساسية» وتطور آليات معالجة المعرفة وتمثيلها واسترجاعها. 


تناول الفصل الثاني مشكلة تمثيل واسترجاع المعلومات بشقيها الرياضي الذي 
يركز على قياس كفاءة النظم وإمكانيات الاسترجاع» والإجرائي الذي يستعرض 
المكونات الأساسية gY‏ نظام لتمثيل المعرفة واسترجاع المعلومات وتحديات 
التمثيل والاسترجاع. 


واستعرض الفصل الثالث طرق تمثيل المعرفة التى تتضمن خمسن طرق أساسية 
هي: التكشيف» التصنيف أو التقسيم إلى فقات» الاجتماعي» التلخيص» 
الملخص الوافي للموقع. 

تناول الفصل الرابع مصادر البيانات بنظم تمثيل المعرفة والتي تأتي من ثلاثة 
مصادر أساسية هى البيانات والميتاداتا والنصوص الكاملة أو الكيانات الرقمية الكاملة. 
وقدعرض eer‏ انناف هيكلة البيانات من خلال استخدام الميتاداتا وإجراءات 
معالجة الكيانات الرقمية وما تتضمنه من نصوص كاملة. 


وركز الفصلان الخامس والسادس على مناقشة قضية اللغة ودورها في تمثيل 
واسترجاع المعرفة بمفهومها الواسع. وقد عرض الفصل الخامس أهم آليات تكويد 
المعرفة سواء من خلال آليات التصنيف الذي يستخدم دلالات رمزية أو من خلال 
لغات التكشيف الاصطناعية والطبيعية وأثر كل منهما في بنية النظم وإجراءات 
الاسترجاع. كماتم عرض تطور لغات التكشيف والتحديات التي تعالجها تلك 
اللغات كأدوات لتمثيل المعرفة. كما تم عرض لغات التكشيف في البيئة الرقمية 
بأنواعها المختلفة. 


الفصل السابع تناول آليات البحث واسترجاع المعلومات والاعتبارات التي يجب 
مراعاتها عند إجراء عمليات البحث عن المعلومات» والتي تشمل تمثيل وصياغة 
الاستفسارات» إجراءات البحث وآلياته المختلفة سواء من حيث طريقة البحث أو 
حقول البحث. كما يعرض الفصل أساليب اختيار آلية البحث الملائمة إلى جانب 
معايير تقييم النتائج. 

استعرض الفصل الثامن أساليب الاسترجاع التي تشمل ثلاثة أساليب أساسية 
هي: البحثء التصفح» والنموذج الهجين من البحث والتصفح. ويعالج هذا الفصل 
الأساليب الثلاثة المستخدمة في استرجاع المعلومات من حيث الملامح والتطبيقات 
والمزايا والعيوب. 

وركز الفصل التاسع على عرض نماذج استرجاع المعلومات» التي تعتمد في 
الأساس على نظم المضاهاة والمطابقة بين المصطلحات» فاستعرض أساليب 
المضاهاة المختلفة» ثم النماذج الثلاثة الأساسية وهي النموذج البوليني» نموذج 
الفراغ الاتجاهي» النموذج الاحتمالي. واختتم الفصل بعرض لآليات الدمج بين 
النماذج لتوسيع إمكانيات نظم استرجاع المعلومات» والذي يتضمن النموذج البوليني 
الموسع ونموذج المجموعة الضبابية. 


الفصلان العاشر والحادي عشر ركزا على الاسترجاع في بيئة الويب من خلال 


استعراض ملامح بيئة الويب وتطور آليات الاسترجاع وأنواعها التي تضمنت الإبحارء 
التصفح» البحث مع التركيز على محركات البحث ومكوناتها وأنواع الزواحف وآليات 
عملهاء ثم ما وراء المحركات وبوابات الويب وأنواعها. وركز الفصل الحادي عشر 
على عرض لمراجعة علمية تفصيلية للدراسات المتعلقة بتمثيل المعرفة بمحركات 
البحث وآليات تكشيفها وفرزها في بيئة الويب. وركز بصفة أساسية على المنهجيات 
والقياسات المتبعة في دراسات الويب. وقد تم تقسيم الدراسات إلى دراسات واقعية 
تعمل في البيئات التشغيلية ودراسات معملية تتم في المختبرات وفي Ley‏ اصطناعية» 
ثم تناول الفصل آليات التكشيف وطرق دراستها. وعرض لكل السبل الممكنة لدفع 
التتائج وترقيتها بمحركات البحث» إلى جانب عرض لطبيعة المشكلات التي تتناولها 
الدراسات بغرض توضيح اتجاهات الإنتاج الفكري في هذا المجال إلى جانب طبيعة 
المناهج والأساليب المتبعة في دراسة تلك المشكلات. وهذا الفصل على وجه 
الخصوص يعد أداة تمكن الباحثين من التعرف إلى طرق وأساليب إجراء دراسات 
الويب بصفة عامة ودراسات استرجاع المعلومات في بيئة الويب بصفة خاصة» سواء 
في البيئات الاصطناعية المعملية أو البيئات الحقيقية التشغيلية. 
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تمثيل المعرفة 
واسترجاع المعلومات: 
نظرة عامة 


4 1 مقدمة 


يرجع تاريخ نظم تمثيل المعرفة واسترجاع المعلومات إلى بدايات النصف الثاني 
من القرن التاسع عشرء وبالتحديد إلى عام 1876 عندما وضع ميلفل ديوي'" Melvil‏ 
Dewey‏ أسس تمثيل المعرفة الحديث من خلال خطة التصنيف المعروفة باسمه كأداة 
أساسية لتنظيم وإتاحة المعرفة )1985 CWynar & Taylor,‏ مع ذلك فإن مجال تمثيل 
المعرفة واسترجاع المعلومات لم يصبح مجالا محوريا للبحث ضمن مجالات علم 
المعلومات إلا مع نهاية الحرب العالمية الثانية. ومنذ ذلك التاريخ بدأت جهود مكثفة 
لتطوير هذا المجال الخصب» حيث جذب اهتمام الباحثين في مجالات متعددة. 
ويرجع ذلك بصفة أساسية إلى توظيف تكنولوجيا المعلومات منذ البداية في البحوث 
والتطوير بهذا المجال بدرجات متنوعة من التعقيد والنضج الأكاديمي. 

يعد مصطلحا تمثيل المعرفة واسترجاع المعلومات المستخدمان في هذا السياق 
تطوراً للعديد من المصطلحات التي ظهرت منذ بداية القرن العشرين وحتى ON‏ 
ومنها مصطلحات مثل التكشيف والاستخلاص» استرجاع المعلومات ومعالجة 
وتنظيم المعلومات. إدارة المعرفة.. إلخ. 


المعلومات مع التركيز على الملامح الأساسية التي شهدتها كل فترة. 
)1( ميلفل ديوي yeweD «livleM» htussoK siuoL ellivleM‏ )10 ديسمبر 1851 - 26 ديسمبر 


1 بمدينة نيويورك وهو مطوّر ومؤسس أشهر bbe‏ التصنيف الحديثة والمعروفة باسمه 
(خطة تصنيف ديوي العشري .(metsys noitacfiissalC lamiceD yeweD)‏ 
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واسترجاع المعلومات» ثم مناقشة المكونات الأساسية لنظم تمثيل المعرفة واسترجاع 
المعلومات Knowledge Representation and Information Retrieval‏ وسينتهى هذا 
الفصل بشرح وتوضيح المشكلة الأساسية التي يعالجها هذا المجال والتي يمكن إيجازها 
فى كيفية الحصول على المعلومات الملائمة التى تلبى الاحتياجات المعرفية لمستفيد 
بعينه في الوقت المناسب. ونظراً للعلاقة الوثيقة بين مجال تمثيل المعرفة واسترجاع 
تمثيل واسترجاع المعلومات؛ نظرأ لأن المعرفة مفهومة ضمنا أنها الهدف الأساس من 
كل عمليات تجميع البيانات وتجهيزها ومعالجتها وإنتاج المعلومات وتنظيمها وإتاحتها. 


> 1.1 مراحل تطور تمثيل المعرفة ونظم استرجاع المعلومات 


إن تاريخ نظم تمثيل واسترجاع المعلومات ليس طويلاً» ومع ذلك فقد شهد تطوراً 
سريعاً خلال الربع الأخير من القرن العشرينء والذي يُنظر إليه على أنه مرحلة إزالة 
الغموض عن هذا المجال. ويرى الباحثون أن مجال استرجاع المعلومات مر بأربع 
مراحل أساسية بداية من مرحلة زيادة الطلب على المعلومات حتى مرحلة عصر 
المشابكة Networked Era‏ الذي نعيشه حالياً. ونستعرض فيما يلي مراحل تطور نظم 
تمثيل واسترجاع المعلومات. 


> 1.1.1 مرحلة زيادة الطلب 
(بداية الأربعينات إلى بداية الخمسينات) 


أدت الحرب العالمية الثانية إلى سرعة وتيرة التطوير في مجالات العلوم 
والتكنولوجياء والتي أسهمت بصورة كبيرة في ظهور مجال تمثيل واسترجاع 
المعلومات» حيث أدت الحرب إلى إنتاج عدد كبير ومذهل من الوثائق والتقارير 
الفنية التي تسجل نتائج أنشطة البحوث والتطوير في مجال الصناعة وخاصة في 
مجالات صناعة الأسلحة وإدارة العمليات. وقد أدى هذا الكم الهائل من الوثائق إلى 


تمثيل المعرفة واسترجاع المعلومات: نظرة dole‏ 


الحاجة إلى أساليب جديدة لمعالجة الوثائق للوصول إلى ما تتضمنه من معلومات» 
حيث إن البشرية لم تواجه من قبل هذه المهمة الصعبة» والتي تمثلت في التعامل 
مع هذا الكم الهائل من الوثائق المهمة دون النظر إلى الجوانب الأخرى الخاصة 
بمعالجة وإدارة المعلومات مثل الاختيار والبث والحفظ. 


وقد أوضح فانفر بوش Bush,1945, p101)‏ أن أحد أهم نتائج الحرب العالمية 
الأولى زيادة الاهتمام بأنشطة البحث والتطوير التعرف إلى ما تتضمنه الوثائق التي 
نتجت عن تلك الحرب من معلومات. فقد أتاحت الحرب الوصول إلى كم كبير من 
نتائج البحوث السرية التي احتاجت إلى الدراسة والتحليل» ما يعد مؤشرا قويا إلى 
أن البشرية دخلت في مرحلة التعمق والتوسع في التخصصات العلمية. وقد واجه 
المكشفون مشكلات كبيرة نظرا للحاجة إلى استيعاب هذا الكم الهائل من الوثائق 
واستخلاص النتائج» ويبدو أنهم لم يستطيعوا التعامل إلامع قدر قليل ومحدود 
جداً من المعلومات بسبب عقم أساليب الوصول إلى المعلومات في ذلك الوقت. 
وقد أصبح من الواضح أنه توجد حاجة حقيقية وضغط شديد نحو أساليب أكثر 
كفاءة لتمثيل وتنظيم هذا الكم الهائل من المعلومات وخاصة في مجالات الكيمياء 
والبيولوجيا والصناعة. 


ريمن تلخيص أهمية وجوه آلبات لاسترجاع المعلومات في iggy Le‏ على سبيل 
المثالء تقوم دور النشر والطبع في مجال الكيمياء الحيوية بنشر نحو مليوني وثيقة سنوياً 
Hiemstra, 2009)‏ ما يشير إلى مدى صعوبة التعامل مع تلك الوثائق باستخدام الأساليب 
التقليدية في الوصول إلى المعلومات. وتشير الإحصاءات إلى أن الباحث الواحد يحتاج 
إلى ساعة على الأقل لقراءة بحثين» فإذا افترضنا جدلاً أن هذا الباحث يستطيع قراءة 
بحوث ب 70 لغة مختلفة» وأنه يستطيع الوصول إلى كل الوثائق المنتجة في مجال الكيمياء 
الحيوية (مليونا وثيقة سنويا) في حوزته وبين يديه ويمكنه قراءة دورية واحدة في اليوم 
ون العام به 365 يوماء فإنه بحاجة إلى 27.4 قرنا لقراءة مخرجات البحوث في عام واحد 
فقط في مجال الكيمياء الحيوية .(Borko & Bernier,1975, P.6)‏ 


وعلى الرغم من أن عدد التقارير الفنية التي تم إنتاجها خلال فترة الأربعينات 
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والخمسينات لا يمكن تحديدها بدقة» حيث إن حجم هذه الوثائق يمكن تقديرها وفقاً 
للإنسان أن يعتمد حصرياً على مهاراته وذاكرته وملفاته الخاصة لتنظيم واسترجاع 
ظهرت الحاجة إلى جهود مكثفة في مجال تمثيل واسترجاع المعلومات» وقد تنتج 
عنها أيضاً الحاجة إلى تطوير نظم لأغراض استرجاع المعلومات على الرغم من أنها 
كانت Labi‏ يدوية مثل كشافات الربط المسبق التي تم تطويرها في البداية ple‏ 1951 
والتى كانت أدوات فعالة فى ذلك الوقت .(Swanson,1988)‏ 


gaill 1.1.2 >‏ المتسارع (الخمسينات حتى الثمانينات) 


تعد هذه الفترة هي الفترة الذهبية في نمو وتطور مجال تمثيل واسترجاع المعلومات؛ 
حيث شهدت دخول واستخدام الحاسب الآلي في هذا المجال خلال الفترة من 1957 
1959( وذلك عندما استخدم هانز بيتر لوهان Hans Peter Luhn‏ البطاقات المثقبة في 
معالجة ومضاهاة الكلمات المفتاحية وترتيب المواد إلى جانب الأعمال الفكرية المرتبطة 
بتحليل محتوى النصوص (Salton,1987)‏ وقد col‏ ظهور نظم الاسترجاع على الخط 
المباشر مثل ديالوج DIALOG‏ في الستينات والسبعينات من القرن الماضي إلى الانتقال 
من نظم استرجاع المعلومات اليدوية إلى النظم المتاحة على الخط المباشر. وقد وصف 
هاهن (1996, Hahn‏ النظم الرائدة التي تم تطويرها في هذه المرحلة بمايلي: 


اشتملت هذه النظم على مجموعة مهمة من الملامح المتطورة مثل المكانز المتاحة 
على الخط المباشرء فرز النتائج» الدمج الآلي للمترادفات أثناء إجراء البحث» المنطق 
البولينى» البتر من جهة اليسار وجهة اليمين deft and right hand truncation‏ الببحث 
فى الا المستهدفة» البحث باللغة الطبيعية فى النصوص الحرة. كما أتاحت 
PR‏ النظم إمكانيات التجميع SY‏ للبيانات» براقت لمراقبة معدلات الاستخدامء 
ومدى رضا المستفيدين عن النظم. 


وقد أسهم في نمو ونضج نظم استرجاع المعلومات على الخط المباشر إلى 
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جانب تطوير الأساليب الآلية والتجارب التي تمت في مجال استرجاع المعلومات» 
التطورات التي تمت في تكنولوجيا الحاسبات في ذلك الوقت. وقد كرس الباحثون 
في العديد من المجالات وخاصة علوم الحاسب مجهوداتهم للبحوث والتطوير 
في هذا المجال» وعلى الرغم من ذلك ظلت العديد من المشكلات الإضافية التي 
تحتاج إلى جهود بحثية مكثفة» حيث لخص سالتون (Salton,1987)‏ في أحد كتبه 
هذه المشكلات بمايلي: 


على الرغم من التقدم الكبير الذي حدث خلال الثلاثين عاماً الماضية في مجال 
معالجة النصوص واسترجاع المعلومات وخاصة في مجال تحرير النصوص وإنتاج 
الوثائق وتحديد كلمات الكشاف والتجميع الآلي وبناء الاستفسارات وبحثها آليا؛ 
إلا أنه توجد حاجة إلى جهود مكثفة في مجال فهم النخلصوص Text Understanding‏ 
والمعالجة الدلالية للمعلو مات -Informtion Syemantic Processing‏ من ثم OLS‏ هذه 
المرحلة ركزت على توظيف إمكانيات الحاسبات الآلية في تمثيل واسترجاع النصوص» 
ولكن ظلت عمليات فهم وتحليل دلالات النصوص تمثل مشكلة كبيرة للباحثين. 


> 1.1.3 مرحلة إزالة الغموض 1980 - 1990 


على الرغم من وصف نظم استرجاع المعلومات سابقا بأنها نظم تم تطويرها 
لخدمة الاحتياجات المتنوعة والمتغيرة للمستفيدين منها؛ إلا أن هذه النظم لم يتم 
Lyra‏ ت يفك ee‏ أن يحت تيهنا E‏ الحاجة إلى a‏ أو 
تقديم الدعم من جانب أخصائي المعلومات. بمعنى آخر أن أخصائيي المكتبات 
الببحث Search Mediators‏ إضافة إلى أن عملية البحث باستخدام هذه النظم كانت 
مكلفة للغاية» لما تتضمنه من مجموعة متنوعة من الرسوم» منها على سبيل المثال 
كلفة ol pagent‏ الاتصال عن بعد .Telecommunication‏ كلفة الاتصال نفسه» رسوم 
اشتراكات قواعد البيانات.. إلخ» كما أن الرسوم كان يتم تحصيلها مقابل كل عملية 
بحث تتم. ومن ثم فمصطلح المستفيد النهائي End users‏ الذي استخدم للإشارة إلى 


الفصل الأول 


أصحاب الاحتياجات المعرفية لم یکن glen‏ تيلا Lie‏ حيث إنهم لم يكونوا 
قادرين على إجراء البحث في تلك النظم بأنفسهم. 


ومع الوقت بدأ مفهوم المستفيد النهائي يتغير تدريجياً مع ظهور الحاسبات 
الشخصية واستخدامها في عمليات البحث بنظم استرجاع المعلومات» و أيضا مع 
بدايات تطبيق نظم الاسترجاع على الأقراص المدمجة CD- ROM‏ والفهارس العامة 
المتاحة على الخط المباشر في منتصف الثمانينات من القرن الماضي. 


وتجدر الإشارة إلى أنه في الماضي كانت نظم استرجاع المعلومات يتم 
إتاحتها من خلال نظم متنوعة مثل الحاسبات الآلية» طابعات النهايات الطرفية 
(Printer Terminals‏ نظم البطاقات المثقبة الضوئية والميكانيكية.. الخ. وجدير 
SUL‏ أن عملية التفاعل بين الباحث وتلك النظم لم تكن سلعة محفزة ولم تكن 
أيضاً سهلة للمستفيد User Freindly‏ وعندما تم استخدام الحاسبات الشخصية 
في استرجاع المعلومات وجد المستفيدون أنها أقل إزعاجاً وصعوبة من الأنظمة 


السابقة» نظراً لاعتمادها على حوارات فعلية للمستفيد مع الأجهزة» فيما عرف 


لذلك ظهر فرع جديد من فروع علم المعلومات اهتم بالسلوك المعلوماتي 
للإنسان Information seeking Behavior‏ وركز على تفاعل الإنسان مع الحاسبات 
.Human Computer Interaction‏ وقد ساعد ظهور نظم الأقراص المدمجة والفهارس 
العامة المتاحة على الخط المباشر Online Public Access Catalogs -OPACs‏ على 
إزالة الغموض وفض الالتباس الذي كان يكتنف عمليات البحث في تلك النظم 
وأصبح المستفيد Lol‏ على إجراء عملية البحث بنفسه» ولم يعد المستفيد يتأثر 
LAS‏ الاتصال عند إجراء البحث على الأقراص المدمجة ونظم الفهارس المتاحة 
على الخط المباشر. ومنذ ذلك الوقت أصبحت نظم استرجاع المعلومات أنظمة تم 
تطويرها لاستخدامها من جانب المستفيد النهائي» ما أثر بصورة كبيرة في انتشار تلك 
النظم وتطويرها نظراً للتفاعل الدائم من جانب المستفيد معها. 
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> 1.1.4 عصر الشبكات (التسعينات حتى الآن) 


كانت نظم استرجاع المعلومات ‏ حتى بداية التسعينات ‏ نشاطاً مركزياً؛ حيث 
يتم إدارة قواعد البيانات التي تعد المكون الأساسي لأي نظام استرجاع معلومات 
من خلال مقر مركزي واحد. فإذا كان الناس بحاجة إلى البحث في أكثر من نظام 
استرجاع معلومات» فعليهم أن يقوموا بالاتصال بكل قاعدة بيانات على حدة. ومع 
ظهور شبكات المعلومات وانتشار استخدامها ظهرت أنماط جديدة من البحث أطلق 
عليها البحث الموزع Distributed Searching‏ الذي يسمح للمستفيدين بدخول قواعد 
البيانات والبحث فيها دفعة واحدة باستخدام البنية التحتية لشبكات المعلومات. ومن 
ثم لم تعد نظم استرجاع المعلومات قاصرة على نظام مركزي في موقع جغرافي واحد. 
وقد ساعد تقدم الإنترنت وتطوير إمكانيات الاتصال بها على تحويل هذا الأمر إلى 
حقيقة من خلال ترفير اليب العحنية للاتضنال البيدي بين الشبكات المعوعة والموزعة 
على مناطق جغرافية متعددة. فإلى جانب mall‏ الخاصة بالبحث الموزع» أعادت 
الإنترنت صياغة مجال استرجاع المعلومات» ويسرت التعامل مع أساليب جديدة 
لمعالجة المعلومات» منها الطرق الإحصائية. فلم يسبق في التاريخ أن تم استخدام أو 
تطبيق النظم الإحصائية لمعالجة الكلمات المفتاحية مع هذا الكم الهائل من الروابط 
الفائقة ذات البنيات المتماسكة ومعلومات الوسائط المتعددة» كما لم يسبق في التاريخ 
أن قام هذا العدد الهائل من المستفيدين من إجراء البحث بنظم استرجاع المعلومات 
دون الحاجة إلى وسطاء أو مساعدة من أخصائيى المكتبات والمعلومات. وكنتيجة 
الاك fo ye OL)‏ عا فل ple cols pitty‏ اللات فى هده الزن عفدت 
كثيراء مادعا إلى ظهور مصطلح جديد وهو مصطلح تنظيم الفوضى Organizing‏ 
95 لوصف الوضع الذي ظهر مع بدايات انتشار الإنترنت وعلى وجه الخصوص 
محركات بحث الويب SU .Web Search Engines‏ فقد أصبح استرجاع النصرص 
الكاملة Full Text Retrievel‏ هو النمط السائد وليس الاستثناء في الاسترجاع على 
الإنترنت» كما ساعدت الإنترنت على سرعة انتشار تقنيات استرجاع المعلومات التي 
كان يتم اختبارها مسبقا في المعامل» بحيث انتشرت نظم استر جاع معلومات التي 
تعمل على الإنترتت» ولعل أبرزها محركات بحث الويب | Google, Yahoo,‏ 


الفصل الأول 


Bing, Ask Jeeves‏ وعموماً فإن نتائج البحوث الخاصة ببيئة المختبرات يتم تطبيقها 
بصورة موسعة في نظم تمثيل واسترجاع المعلومات على الإنترنت. 


وعلى الرغم من أن المرحلة الرابعة وهي مرحلة محركات بحث الويب قد 
أثرت في كل أنماط العمل بقواعد البيانات ونظم استرجاع المعلومات التقليدية 
وفي سلوكيات المستفيدين» إلا أن هذه المرحلة نفسها مرت بالعديد من المتغيرات 
Cer‏ تركز في السنوات الاخيرة على تطبيقات الذكاء الاصطناعي والويب الدلالي 
في عمليات التمثيل والبحث والاسترجاع التي سيتم تناولها بالتفصيل عند التعرض 
لتاريخ محركات البحث. 


> 1.2 مفاهيم أساسية 


يهتم هذا الكتاب بأربعة مفاهيم أساسية هي: هرم المعلومات» تمثيل Aa rad‏ 
استرجاع المعلومات» والعصر الرقمي. ويحظى كل مفهوم من هذه المفاهيم 
بمجموعة من المترادفات التى يمكن تفسيرها أو فهمها بطرق مختلفة وفى سياقات 
متنوعة. وسيتم فيما يلي توضيح هذه المفاهيم المختلفة التي يتضمنها هذا الكتاب. 


> 1.2.1 هرم المعرفة 


اهتم العديد من الباحثين بتفسير هرم المعلومات وتمييز عناصره التي تشمل 
البيانات» والمعلومات والمعرفة» والحكمة «(Meadow,1992)‏ 9 ويجب في هذا السياق 
تمييز مكونات هرم المعلومات وما يتضمنه من عناصره وعلاقة كل مصطلح فيه بباقي 
المصطلحات. ويوضح الشكل التالي مكونات هرم المعلومات بعناصره الأربعة: 

٠‏ البيانات Data‏ هي مجموعة من الحقائق الموضوعية الخام غير المترابطة 
وغير المنظمة. ويمكن لهذه البيانات أن تكون كمية أو كيفية (إحصاءات» 
أرقام» وقائع» بيانات ببليوغرافية). وعادة ما يشار إلى البيانات بأنها المادة 
الخام للمعلومات» حيث تتحول البيانات إلى معلومات عندما يتم تجميعها 
وتنظيمها وتصنيفها وتنقيحها وتحليلها ووضعها في إطار واضح ومفهوم 
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للمتلقى. فالبيانات الببليوغرافية لكتاب تشمل المؤلف والعنوان وبيانات النشر 
وا الوصف المادي.. إلخ» وبيانات الشخص تشمل اسمه وعنوانه وتاريخ 
ميلاده ورقمه القومي ورقم جواز السفر وحالته الاجتماعية. ويتم تجميع تلك 
البيانات فى بطاقات للتحقق من هوية الكيان (الكتاب أو الشخص) فى صورة 
تسجيلات «تمثيل بيانات هذا الكيان). l‏ 


وهو ما يتطابق مع عمليات معالحة البيانات والمعلومات» 
والتي تنطوي على عملية تمثيل للمحتوى وتجهيزه لعمليات 
٠‏ المعلومات: تعرف عادة بأنها البيانات التى تمت معالجتها بحيث أصبحت 
مرتبطة بسياق معين ودلالات محددة. فالمعلومات هي بيانات توضع في 


المعلومات 


رسالة محددة تساعد على تغيير 


مجمعة ومرتبة ومترابطة 








شكل (1.1) مكونات هرم المعرفة 


الفصل الأول 


معينة. ويمكن التعبير عن المعلومات بأكثر من شكل منها النصوص Ay gS)‏ 
المسموعة» المرئية» المرسومة.. الخ. وعادة ما ينظر إلى المعلومات على أنها 
المحرك الأساسي لإحداث التغيير في البنية المعرفية للمتلقي. فبيانات الشخص 
لا يمكن من خلالها التعرف إليه» لكن يمكن تمييزه بوضوح من خلال بطاقة 
الهوية» جواز السفرء تسجيلاته الاستنادية التي تشتمل على بيانات تجميعية عن 
OLSI‏ المطلوب تمييزه. 


ونظراً لأن الكتاب يركز على موضوع استرجاع المعلومات فيجب تمييز المقصود 
بالمعلومات في هذا السياق. فقد تم استخدام مصطلحات مثل المعلومات والنصوص 
5 والوثائق Documents‏ بطريقة تبادلية في مجال استرجاع المعلومات. فالوثائق يمكن 
تصنيفها Ly‏ لسعرها والذي يمكن من خلاله وضعها في أعداد وإحصاءات» والذي يعد 
المكوّن الأساسي لإحصاءات المواد بمؤسسات المعرفة» ومعظم هذه الوثائق تستغل 
مساحات» ويمكن أن يتم تدميرها أو أن تتعرض للتلف مع الوقت» إضافة إلى ذلك OLS‏ 
الوثائق من الممكن أن تتضمن وسائط متعددة» فإذا كانت النصوص تشير إلى المعلومات 
النصية فقطء فإن الوثائق من الممكن أن تتضمن معلومات من وسائط متعددة (مزيج من 
المواد السمعية والبصرية والصور إلى جانب المعلومات النصية). من ثم فمن الواضح 
أن المعلومات تشتمل على كل من النصوص والوثائق والتي لها دلالة أوسع من الثلاثة 
مفاهيم (المعلومات» النصوصء الوثائق). وقد بدأ الاهتمام في السنوات الأخيرة بإجراء 
بحوث ودراسات عن الاسترجاع من الفقرات Passage Retrieval‏ في مقابلة استرجاع 
الوثائق )2000 (Sparck Jones,‏ ويهتم استرجاع الفقرات والذي يطلق عليه أيضا في 
بعض الأحيان استرجاع المعلومات» بإيجاد المعلومات ذاتها أو الفقرات نفسها (مثل 
فقرات أو أجزاء محددة من الوثيقة) التي يحتاج إليها المستفيد. ويركز استرجاع الوثائق 
على الوثيقة كاملة للمستفيد النهائي حتى لو كان المستفيد لا يحتاج منها إلا إلى جزء أو 
فقرة صغيرة. من ثم فمصطلح معلومات في هذا السياق يشير إلى مفهوم شامل لمعالجة 
كافة أشكال وأنواع مواد وحاويات المعلومات سواء كانت نصية أو غير نصية بمافي 
ذلك الكيانات بأكملها مثل الكتب والمقالات أو أجزائها مثل الملخصات والفقرات. 
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٠‏ المعرفة: هي المعلومات التي تم فهمها وتحليلها واستيعابها واستعمالها لإنجاز 
فعل معين أو اتخاذ قرار في ظروف معينة. فالمعرفة لا تقتصر على الأشياء الظاهرة 
والملموسة مغل القرارت بل تشمل bal‏ المهارات والخبرات الشخصية والتفسيرات 
والتحليلات والاستنتاجات التي يضيفها الأفراد والجماعات» والتي يتم من خلالها 
اتخاذ القرارت. ويتم تحصيل المعرفة من المعلومات المتاحة للشخص من مصادر 
المعلومات التي يتم الوصول إليها من خلال أدوات تنظيم وإتاحة المعلومات. 

وتجدر الإشارة إلى أن المعرفة هي مجموع ما يمتكله الفرد من مقومات تمكنه من 

أداء مهام وإنجاز أعمال وحل مشكلات. كما أنها رأس المال البشري الذي تمتكله 
المجتمعات» فمجتمعات المعرفة هي المجتمعات التي تمتلك رأس مال بشريا قادرا 
على أداء مهام وإنجاز أعمال وابتكار حلول لمشكلات الحياة اليومية» بحيث يمكنها 
تصدير تلك الحلول في صورة تطبيقات وإرشادات. فعلى سبيل المثال» الطبيب الذي 
يمتلك المعرفة هو رأس مال بشري يستطيع حل مشكلات صحية للعديد من المرضى» 
المبرمج الجيد هو رأس مال بشري يمتلك المعرفة التي تمكنه من بناء تطبيقات تحقق 
رفاهية المجتمعات. فإذا نظرنا إلى أهم شركة تأجير سيارات في العالم» وهي «أوبر» 
على سبيل المثال» نجد أنها لا تمتلك أي سيارة» وإنما تمتلك تطبيقا لمعرفة ابتكرها 
رأس مال بشري استطاع توظيف البيانات والمعلومات المتاحة في بناء تطبيق مبتكر 
يحل مشكلة يواجهها الناس في حياتهم اليومية. 


وقد حاول العلماء التمييز بين عناصر الهرم المعرفي من الناحية الرياضية بأساليب 
متنوعة» لعل أبرزها التعبير عن العلاقة بين البيانات والمعلومات والمعرفة بالمعادلة التالية: 


=I) I=c+d‏ المعلومة. Hd‏ البيانات» © = السياق) 
المعلومات تعادل كم البيانات التى يتم استخدامها في سياقات مختلفة. 
كماعير الارن عن Ball‏ ين المعلومات a rally‏ بالمعادلة الال 


K=I*U‏ (ك1- المعرفة»1 - المعلومات» U‏ = الاستعمال) 
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المعرفة تعادل كم المعلومات مضروباً في عدد مرات استخدامها. وتجدر الإشارة 
إلى أن تحويل تلك المفاهيم إلى قياسات وطرق رياضية للحساب ليس بالأمر 
السهل؛ OY‏ كثيراً من تلك المفاهيم عادة ما يكون غير ملموس Intangible‏ ويمكن 
تخيل الأمر عند التعامل مع قاعدة بيانات تشتمل على مليون تسجيلة Sis‏ فحجم 
المعرفة الذي تتيحه هذا القاعدة للمستفيدين منها يعادل عدد التسجيلات المتاحة 
بها (مليون وحدة معلوماتية)» ونفترض أنه يتم استخدامها 1000 مرة يومياً وفي كل 
مرة يتم فحص 10 وحدات معلوماتية» بالتالي يكون حجم المعرفة التي توفرها تلك 
القاعدة يعادل عدد الوحدات المعلوماتية المستخدمة فى عدد مرات استخدامها 
(10*1000) يعادل 10,000 وحدة معرفية. l‏ 


PEE E fo مهنا‎ Ui all, Lal S Wig tall E Ls 
Knowledge Assessment البنك الدولىء والتى تعرف بمنهجية قياس المعرفة‎ 
والتي تعد مقياساً تفاعلياً تم تطويره ضمن برنامج المعرفة من‎ Methodlogy - MAM 
ويشتمل المقياس على 148 متغيرا‎ -Knowledge for Development -K4D أجل التنمية‎ 
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هيكليا نو عياً structural and qualitative variables‏ وذلك لعدد 146 دولة حول العالم 


لقياس أداء تلك الدول في 4 مقومات أساسية لقطاع اقتصاد المعرفة وهي كالتالي: 


Economic Incentive and Institutional نظام الحوافز الاقتصادية والمؤسسية‎ 0 


Regime 


Education التعليم‎ 0 


Innovation الابتكار‎ 0 


0ه تكنولوجيا المعلومات والاتصالات Information and Communications‏ 


Technologies 
ويتم حساب المتغيرات بنظام درجات من صفر إلى 10» ثم يتم معادلة درجات‎ 


الدولة مقارنة بالدول الأخرى التي معها في نفس المجموعة. وتحدد منهجية قياس 
المعرفة KAM‏ مؤشر اقتصاد المعرفة الكلى (Knowledge Economy Index (KEI‏ 
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ومؤشر المعرفة JS (Knowledge Index (KI‏ دولة من الدول ال 146. ويشير مؤشر 
المعرفة إلى قدرة الدولة على إنتاج ونشر المعرفة» في حين يشير مؤشر اقتصاد العرفة 
إلى KEI‏ إلى قدرة الدولة على توفير البيئة المحفزة للأعمال Prevailling Bussiness‏ 
Environement‏ والتي يتم فيها توفير المعرفة المحفزة للآنشطة الاقتصادية والتي 
تحقق التنمية والخير World Bank (2006) © posma‏ . 
كما قامت مؤسسة محمد بن راشد آل مكتوم للمعرفة بإعداد مؤشر للمعرفة أطلق 
عليه مؤشر المعرفة العالمي» والذي يعد أكثر المقاييس ثباتا واستمرارية في الصدور 
منذ عام 2015 حتى الآن. يُعنى مؤشر المعرفة العالمي بقياس المعرفة بمختلف أشكالها 
وتجليّاتها بهدف دعم جهود تحقيق التنمية المستدامة. وهو عبارة عن خلاصة جهد 
مجموعة من الخبراء والمتخصصين في مختلف المجالات مثل التعليم بمختلف 
مراحله وأنواعه والاقتصاد والبحث والتطوير والابتكار والتكنولوجيا وغيرها. 
دوا ار كل ی E‏ ا ادات راا ات نی ون 

استقصاءات تستند إلى بيانات موثوقة ومحدثة ومنهجية للمقارنة بين الدول التي 
يشملها المؤشر والتي تمت المقارنة بينها في 7 قطاعات رئيسة هي: 

ت التعليم قبل الجامعي 

0 التعليم التقني والتدريب المهني 

0 التعليم العالي 

0 البحث والتطوير والابتكار 

0 تكنولوجيا المعلومات والاتصالاات 

0 الاقتصاد 

0 البيئات التمكينية 





(1) World Bank (2006).Knowledge Assessment Methodology. «World Bank Institute.» World 
Bank, Washington, (33 p.). http://siteresources.worldbank.org/KFDLP/Resources/ 
KAM_Paper_WP.pdf 
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والمشروع بكافة تفاصيله متاح على منصة المعرفة للجميع Knowledge4all‏ والتي 
و pre gl‏ اه ام عو ي 


http://www.knowledge4all.com/ar/115/Pages 


٠‏ الحكمة: تم تعريف الحكمة على أنْها حالة أو صفة تمكن الفرد من إصدار 
الأحكام المقبولة من جانب الآخرين, LEY‏ عادة ما تتسم بالبصيرة Insight‏ 
والحكم العادل. والحكمة هي هبة إلهية غير مرتبطة بكم المعلومات والمعارف 
التي يملكها الفرد ولكنها مرتبطة ببصيرته ومدى صفائها. لذلك وصفها المولى 
وردت فيها الحكمة: 

2 a7 67 fo zz 8 o 4 ê 3 > “yo (a 8 A o 

[ البقرة»‎ YIA أوتِيَ خيرا كثيرا]‎ AB S وَمَنْ يَوْتَ‎ OLY الجكَمَة مَنْ‎ SH] 

grz 2 Oe من‎ oF Lyme 0 oe) ور‎ os SD Seat, 4 we se a S a, 4% 
Ql لَقَمَانَ الحِكمّة‎ ET الحِكمّة] ۳۹ الإسراء. [ولقد‎ Ge رَبك‎ IY مما أَوْحَئ‎ GUS 
ص.‎ ؟١]باّطِخْلا‎ fais eK LG AR SLE] لقمان»‎ ۱۲ Le اشكر‎ 


من ثم فالحكمة هي قمة هرم المعلومات» وتأتي بعد المعرفة ويتسم أصحابها 
بالقدرة على القيادة وإلهام وتعزيز الدوافع لدى الآخرين. لذا فمن أهم عناصر اختيار 
القيادات والمديرين في المؤسسات هو مدى تمتعهم بالحكمة التي تمكنهم من اتخاذ 
القرارت السليمة في المواقف وفي الوقت المناسب. 


ونستكمل Lad‏ يلي مجموعة المفاهيم الأساسية التي يتناولها هذا الكتاب لتحديد 
المفاهيم المقصودة والمعانى المستهدفة لتلك المفاهيم. 


> 1.2.2 تمثيل المعلومات 


Information Representation 
أباً كان شكل المعلومات: توجد حاجة أساسية لتمثبل تلك المعلوماث قبل أن‎ 


تصبح ALG‏ للاسترجاع. ويقصد بتمثيل المعلومات هناء اشتقاق مجموعة من البيانات 
J)‏ العناوين والكلمات المفتاحية والعبارات.. إلخ) من الوثيقة أو تخصيص 
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مصطلحات (مثل الواصفات ورؤوس الموضوعات) للوثيقة» من ثم يمكن التعرف 
إلى مضمونها وتمييزها وتمثيلها. وعادة مايتم أداء عملية تمثيل المعلومات من خلال 
مزيج من العمليات تشمل: الاستخلاص, التكشيفء التصنيف» التلخيص والاشتقاق. 

وعلى الرغم من أن معالجة المعلومات Information Processing‏ وإدارة 
المعلومات gle Lag Information Management‏ مختلفة عن بعضهما بعضا إلا 
أنهما أحياناً ما يتم استخدامهما كمرادفات لتمثيل المعلومات. فبينما تتم الإشارة إلى 
معالجة المعلومات على أنها طريقة التعامل مع المعلومات لأغراض الاستر جاع How‏ 
(information Is Handeled for Retrieval Purposes‏ تتعامل إدارة المعلومات مع 
مجال واسع من الأنشطة المرتبطة بالمعلومات تتراوح بين اختيار وحفظ المعلومات. 

ويستخدم في هذا الكتاب مصطلح تمثيل المعلومات ليغطي الجوانب والطرق 
المختلفة لإعداد بدائل أو تمثيل الوثائق Document Surrogate or Representations‏ 
مثل الكشافات والمستخلصات» وذلك لأغراض استرجاع المعلومات. 


> 1.2.3 الحاجة والطلب والاسترجاع 


يتم النظر إلى مجال طلب المعلومات على أنه مجال موضوعي واسع النطاق 
يغطي IS‏ من جوانب التمثيل والاستر جاع (Sparck Jones & Willett,1997)‏ ويتم 
الإشارة إلى البعد الخاص بالاسترجاع على أنه إتاحة المعلومات Information‏ 


=E 


شكل رقم )1.2( مراحل عمليات إدارة المعلومات 
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Access‏ أو Ib‏ المعلومات Informationn Seeking‏ ويمكن النظر إلى هذه 
المصطلحات على أنها مرادفات لمصطلح الاسترجاع. ذلك على الرغم من 
أن كلاً منها له توجه ضمني خاص به. فالمصطلح «إتاحة المعلومات» يركز 
على جوانب الحصول على المعلومات» بينما يهتم مصطلح طلب المعلومات 
بالجوانب الخاصة بالمستفيد الذي ينخرط فى نشاط ole gles!‏ أما البحث عن 
المعلومات „è Information Searching‏ كز e‏ كل ما يتعلق بكيف يتم البحث 
عن المعلومات. علاوة على مجموعة المصطلحات السابقة» ظهرت في السنوات 
الأخيرة مجموعة من المصطلحات التي يتم تداولها واستخدامها بكثافة في 
مجال استرجاع المعلومات تشمل التنقيب عن البيانات Data Mining‏ واكتشاف 
المصادر Resources Discovery‏ وتجدر الإشارة إلى أن هذين المصطلحين عادة 
ما يستخدمان في مجال الأعمال التجارية وفي بيئة المشابكة» ومن المتوقع أن 
يصبحا من المصطلحات الثابتة التي يتم تداولها بين المتخصصين في مجال 
استرجاع المعلومات في المستقبل. 


ومن المعاني الآخرى التي تستخدم للدلالة على مفهوم استرجاع المعلومات 
مصطلح تخزين المعلومات «Information Storage‏ والذي يتعامل أساساً مع 
تسجيل وتخزين وحفظ المعلومات. ورغم ذلكء فإن هذا المفهوم قد أصبح 
تدريجياً ممارسة قديمة لمفهوم حفظ المعلومات» حيث لم يعد تخزين المعلومات 
أمراً مهما نتيجة للتطورات التكنولوجية المتسارعة. وقد تطور هذا المفهوم وأصبح 
يستخدم بصورة أوسع للدلالة على طرق وأساليب خزن وإتاحة المعلومات. 


Digital Age العصر الرقمي‎ 1.2.4 > 


عادة مايتم التفرقة بين المصطلح «رقمي» في مقابل المصطلح «تناظري». وكلا 
المصطلحين مرتبط باستخدام التكنولوجيا الإلكترونية. وقد قامت شركة تيك تارجت 
«(Tech Target, 2001)‏ وهي إحدى الشركات التي تهتم بتعريف المصطلحات 
التكنولوجية؛ بتعريف التكنولوجيا الرقمية بأنها: 
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«أحد أنماط التكنولوجيا الإلكترونية التي تقوم بتجميع وتخزين ومعالجة البيانات 
في وضعين أساسيين هما موجب وغير موجب). ويتم تمثيل الموجب بالرقم 1 وغير 
الموجب بالرقم صفر. لذلك فإن البيانات التي يتم نقلها وتداولها في البيئة الرقمية 
يتم التعبير عنها بمجموعة من سلاسل الأصفار والآحاد. أما قبل ظهور التكنولوجيا 
الرقمية» فكان النقل الإلكتروني يقتصر على التكنولوجيا التناظرية والتي تنقل البيانات 
في صورة إشارات إلكترونية بترددات متفاوتة في السعة» والتي يتم تحميلها على 
حامل الموجات Waive Carrier‏ بترددات محددة. ويعد البث الإذاعي والتلفزيوني 
والتليفون من أبرز النماذج التقليدية للتكنولوجيا التناظرية. ومع تقدم الحاسبات 
وشبكة الإنترنت وغيرها من أنماط تكنولوجيا المعلومات دخ ل الإنسان في العصر 
الرقمي بصورة كبيرة. وقد تم العديد من أنشطة البحث والتطوير المرتبطة بمجال 
استرجاع المعلومات في تلك البيئة الرقمية. 


> 1.3 مفاهيم مرتبطة بمجال استرجاع المعلومات 

سيتم فيما يلي استعراض مجموعة من المفاهيم الأساسية ذات العلاقة الوثيقة 
بمجال استرجاع المعلومات وتشمل: قواعد البيانات» آليات البحثء اللغة» واجهات 
التعامل. ويعد البشر (بمن فيهم المستفيدون» وأخصائيو المعلومات)» وعمليات 
المعالجة والنظم» ثلاثة مكونات متداخلة تعمل معافي مجال تمثيل واسترجاع 
المعلومات في البيئة الرقمية التي تتأثر بقوة بهذه المكونات الثلاثة. 


> 1.3.1 تنظيم المعلومات 


هو وضع المعلومات في سياق يمكن من خلاله الوصول إليها عند الحاجة 
في أقل وقت وبأقل مجهود. والمقصود بالسياق هنا هو وضع آلية للتنظيم تيسر 
عمليات الإتاحة والوصول إلى المعلومات. وعادة مايتم تمثيل المعلومات من 
خلال أدوات تساعد على تيسير تداولها يطلق عليها: مصادر المعلومات / مواد 
المعلومات / أوعية المعلومات / الإنتاج الفكري. وتشير كل هذه المصطلحات 
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إلى: الكتب / الدوريات / المخطوطات / الخرائط / الصور / المصغرات 
الفيلمية / هلفات الكمبيوكر/ الفوت الموسييقية / الوثافق / الرسائل الجامعية/ 
الأشكال والنماذج / مواقع الويب.. إلخ. 
- والغرض الأساسي من تنظيم المعلومات هو تيسير عمليات استرجاعها من 
خلال نظم استرجاع المعلومات والتي تشمل: الببليوغرافيات» الفهارس» 
أدوات الإيجاد» السجلات» المرافق الببليوغرافية» قواعد البيانات» أدلة الويب» 
محركات البحث» ما وراء المحركات» البوابات» أدوات الاكتشاف.. إلخ. 
المعلومات لتحقيق الأهداف التالية: 
- إيجاد مصادر المعلومات: يساعد على التحقق من أن المعلومات موجودة 
الأعمال التجميعية موجود ومتاح ويمكن الوصول إليه (مثل الحاجة إلى 
مقالة بدورية). 
= تجميع المواد معاً بصورة منتظمة يساعد على بناء مستودعات بالوثائق 
المنظمة فى المكتبات والأرشيفات والمتاحف وملفات الإنترنت وغيرها من 
المستودعات. 
 —‏ ايسر تلبات الانتشهاد المرجي: بمضادر المعلومات وفقا لقواعد معيارية: 
- تيسير سبل الإتاحة بنقاط إتاحة متنوعة: مثل المؤلف والعنوان والموضوع 
وغيرها. 
- تيسير سبل تحديد مواقع وأماكن حفظ المواد التي يوجد بها نسخ يمكن 
الوصول إليها. 
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ومن المعروف أنه توجد خمس طرق أساسية لتنظيم المعلومات وعادة ما يشار 
إليها بالمختصر 3 «LATCH‏ والتي تمثل الموقع» والترتيب الهجائىء الزمنى» الفقكات» 


1. الموقع Location‏ ويستخدم في تنظيم المعلومات المتعلقة بالطرق والمدن 
والمواقع المهمة مثل الآثار والآبار والحفريات..الخ. 
والكشافات وقوائم الأسماء وغيرها من المعلومات النصية..الخ. 

3 الوقت Time‏ يستتخدم في ترتيب الأحداث التاريخية والجارية مثل المعارض 
والبرامج.. إلخ. 

Category olei .4‏ ويستخدم هذا النمط من الترتيب في تجميع الفقفات 
المتشابهة كما هو الحال في تجميع المواد في فئات المواد بالمراكز التجارية 
والصيدليات ومواقع الويب. وقد يكون الترتيب وفقاً للنوع أو الشكل أو وفقاً 
للفئة العمرية. 

5. الترتيب الهرمي Hierarchy‏ يستخدم في عمليات التصنيف للمواد حسب 
علاقتها ببعضها بعضاً مغل التصنيف البيولوجي وتصنيف الموضوعات» 
وعادة ما يعتمد الترتيب الهرمي على وجود علاقة هرمية بين المواد» بحيث 
يتم تقسيمها من العام إلى الخاص. 


> 1.3.2 استرجاع المعلومات 


يشير مصطلح استرجاع المعلومات إلى أنه عملية بحث مجموعة من بدائل 
الوثاقق» ويستخدم مصطلح وثيقة هناعلى نطاق واسع لتحديد الوثائق التي تعالج 
موضوع معين. كما يتم الإشارة إليه على أنه أي نظام تم تصميمه لتيسير عملية بحث 
الإنتاج الفكري» ويطلق على هذا النظام مصطلح «نظام استرجاع المعلومات». 
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وعند تحديد مصطلح استرجاع المعلومات للدلالة على استرجاع الوثائق لابد من 
استبعاد الأنظمة التي لا تتعامل مع النصوص مثل نظم إدارة قواعد البيانات Database‏ 
Management Systems‏ و نظم الرد على الاستفسارات Questions Answering‏ 
.Systems‏ هذه النظم tole‏ ما يطلق Lede‏ أنظمة ple‏ البيانات Data Retrieval‏ 
Systems‏ أو نظم استرجاع الحقائق Fact Retrieval Systems‏ وتتيح هذه الأنظمة 
استرجاع Pe es‏ أو حقائق محددة تعبر عن ds gles‏ محددة» وبععض هذه الأنظمة 
يتخطى مرحلة تقديم إجابات محددة إلى تقديم تحليل دقيق للنتائج في صورة أكثر 
ذكاءً» حيث تستخلص من البيانات المخزنة نتائج جديدة. 

ومن الواضح أن مصطلح «استرجاع المعلومات» ليس مصطلحاً دقيقاً للدلالة على هذا 
النشاط الذي يتم تطبيقه فيه» حيث إن نظم استرجاع المعلومات لا تسترجع معلومات وإنما 
لايمكن رؤيته أو سماعه أو الإحساس به» لأنه مرتبط بتغيير النمط المعرفي وتطوير البنية 
المعرفية للمتلقي» كما أن عملية الإعلام تتم عندما يحدث تغيير في البنية المعرفية للشخص 
في موضوع معين» من ثم إعطاء المستفيد وثيقة تتناول موضوعاً معيناً لايعني إعلام 
المستفيد بالموضوع» وإنما الإعلام يحدث عندما يقوم المستفيد بقراءة الوثيقة وفهمها 

وعلى الرغم من أن المصطلح غير دقيق لوصف الموضوع. إلا أنه أكثر 
المصطلحات ملاءمة لأغراض مناقشة الموضوع بدقة» كما أنه المصطلح الذي استقر 
عليه الإنتاج الفكري المتخصص في الموضوع. 


ومن الأنشطة الأساسية التي تقوم بها مؤسسات المعلومات. الإجابة عن 
الاستفسارات» والتي يمكن النظر إليها على أنها من أنشطة استر جاع المعلومات. 
وتسعى Soba tes Sab‏ توقير إجابات فباشرة عن استفسارات 
المستفيدين ومن أمثلة هذه الاستفسارات: ما هو ارتفاع جبل ما؟ مادرجة حرارة 
ذوبان مادةما؟ ماعتوان.. ؟. 


وتتم الإجابة عن مثل هذه الاستفسارات من خلال البحث في المصادر المرجعية 
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وتوفير إجابات مباشرة عن الاستفسارات بدلاً من إحالة المستفيد إلى وثيقة تجيب 
عن الاستفسار. ويطلق على هذه النوعية المتميزة من الخدمات مصطلح الخدمة 
المرجعية. تعد هذه النوعية من الخدمات المرحلة الثانية في أنشطة استرجاع 
المعلومات» حيث تتضمن المرحلة الأولى استخدام نظم استرجاع المعلومات على 
a‏ أنواعها ae J‏ المكتبات» الكشافات» l‏ البيانات» ma‏ البحث 
فى المرحلة الثانية استخلاص ا ee eee‏ 
الأولى. وتجدر الإشارة إلى أنه قد تم تطوير العديد من نظم استرجاع الحقائق 
التي يتم البحث فيها من خلال توجيه استفسارات في صورة تساؤلات باستخدام 
اللغة الطبيعية» ونظرا للتعقيد الشديد في تصميم مثل هذه النظم فإن معظم النظم 
المتاحة حالياً مقصورة على نوعية معينة من المعارف ذات البنية المحددة مثل نتائج 
الاختبارات وتنسيق الجامعات أو أكواد الطرق السريعة. كما توجد نوعية أخرى 
من النظم التي تقدم إجابات أو استفسارات تتعلق بالمواد الفيزيائية أو الكيميائية أو 
المعادلات الرياضية.. إلخ. ويطلق على هذه النوعية من النظم نظم استرجاع البيانات» 
كما يمكن أن يشار إلى البيانات في هذه النظم بمصطلح بنوك البيانات» ومن أمثلة 
هذه اليحوك: البيانات الإحصائية» بيانات مواد الطاقة.. إلخ. وقد حظيت هذه النوعية 
من بنوك البيانات باهتمام كبير في السنوات الأخيرة في ظل تضخم حجم البيانات 
من ثم ظهرت الحاجة إلى معالجة البيانات الضخمة Big Data‏ والربط بين البيانات 
الضخمة Linked Big Data‏ إضافة إلى معالجتها بأساليب جديدة تشمل التنقيب عن 
البيانات Data Mining‏ والمعالجات الدلالية .Semantic Data Analysis HULU‏ وقد 
كان لكل هذه التطورات أثر كبير في نظم استرجاع المعلومات التي سعت نحو توفير 
آليات للتعامل مع تلك التطورات. 
SS‏ 
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أمثلة لنظم استرجاع المعلومات على الرغم من أن الإجابة عن الاستفسارات ونظم 
استرجاع النصوص تسترجع معلومات مباشرة للإجابة عن استفسارات معينة» بينما 
نظم استرجاع المعلومات تسترجع بدائل للوثائق وليس الوثائق نفسها وتحيل 
المستفيد إلى النصوص الكاملة. لكن فى ظل التطورات التى شهدتها أدوات البحث 
أصبحت نظم استرجاع المعلومات قادرة على استرجاع بدائل الوثائق والبحث في 
النصوص والرد على استفسارات المستفيدين في نفس الوقت. ولعل أبرز مثال على 
ذلك ما يقدمه محرك البحث غوغل الذي يدمج كل فئات البحث في صندوق واحدء 
كما يتيح إمكانية البحث في كل فئة على حدة. 


> 1.3.3 قواعد البيانات 


تعد قواعد البيانات العمود الفقري وأحد المكونات الأساسية لنظم تمثيل واسترجاع 
المعلومات» حيث تشتمل على البيانات والمعلومات التي يتم تمثيلها وتنظيمها وفقا 
لآليات عمل نظم استرجاع المعلومات التي ستتناولها بالتفصيل في هذا الكتاب. 
فالمفهوم التقليدي لقواعد البيانات التي تعرف بقواعد البيانات الببليوجرافية يشير 
إلى مجموعة من التسجيلات المتطابقة والتي يمكن تحليلها إلى حقولء والتي تعد 
أصغر وأدق المكونات أو الوحدات التي تستخدم في عمليات البحث بنظم استرجاع 
المعلومات وفرزالنتائج. ففي قاعدة بيانات الدوريات» على سبيل المثال» يوجد 
حقل يمثل بيانات التأليف وآخر يمثل عنوان المقالة.. الخ» وتستخدم هذه الحقول 
في عمليات البحث والتصفح والترتيب. 

gl فين أساسيين هما الملف‎ ole التقليدية‎ oti قر اعد‎ forts 
as الملف التسلسلى‎ Lay Inverted File والملف المقلوب‎ Sequential File 
pt يكين ران ينين‎ EE ودار‎ le le اا اا عدف‎ 
oe OV Lda Ll الياناك ويطلق غليه الملف‎ aed والتسجيلات فى‎ 
OEE : الى سبل اا شاد‎ Cy ا‎ Lopes 


أما الملف المقلوبء والذي يُعرف أيضاً بالملف الكشاف «Index file‏ فيتيح 
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الوصول إلى الملف التسلسلي بناء على الصيغ البحثية ومدى تطابقها مع مصطلحات 
Be alas‏ ا Beesley‏ ا عرو 
المعلومات به حيث il‏ نقاط الإتاحة Access Point‏ أو لا ثم المواضع «Locators‏ 
وهو عكس الترتيب الذي توضع فيه المعلومات في الملف التسلسلي حيث تأتي 
المواضع أولا ثم نقاط الإتاحة. 





التسلسلى أ 














شكل (1.3) مكونات قاعدة البيانات 





ويتضح من الشكل السابق أن قواعد البيانات تقوم بأربع عمليات أساسية لتجهيز 
الملفات لعمليات البحث والاسترجاع وهي: 

عد تج الولف التسلسلى: 

- بناء ملف الكشاف الذي يشتمل على الكلمات القابلة للتكشيف فى كل تسجيلة. 

- بناء الملف المقلوب الذي forty‏ على المصطلحات الكشفية ومواقعها بالتسجيلات. 
5 تطبيق خوارزميات الاسترجاع والتي تتضمن الوزن النسبي للمصطلحات الكشفية. 

أما في النظم غير التقليدية مثل نظم الاسترجاع على الإنترنت» فإن قواعد البيانات 
تظل تشتمل على الملفات (التسلسلي والمقلوب». إلا أن تركيب الملف التسلسلي 
على سبيل المثال قد يختلف عن تركيبه في النظم التقليدية على الخط المباشر؛ حيث 
إن التركيب في النظم غير التقليدية Y‏ يأخذ شكل حقول وتسجيلات متطابقة في قواعد 


البيانات؛ فهو لا يتضمن حقولاًء وإنما يتم عرض المعلومات في شكل نثريء إضافة 
إلى أن المعلومات التي يتضمنها الملف التسلسلي ليست بدائل Surrogate‏ للوثائق 
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جدول (1.1) نموذج لمكونات الملفات بقواعد البيانات 














Spel‏ الكلات المشتقة للتكشيف الترتيب seal‏ الوزن التسبي 
التسجيلات الكلمات أرقام أرقام التسجيلات الكلمات ١‏ ارقام التسجيلات | الوزن 
الببليوجرافية المفتاحية التسجيلات 
الكاملة 
1 استرجاع 42 5 42 5 استرجاع 2 0.98 
2 المعلومات 3241 Zai‏ استرجاع 4 0.70 
3 نظم 5.241 3021 استرجاع 5 0.85 
4 معرفة 432 2 43 JE‏ 1 0.6 
je 521 2 Jež 5‏ 2 0.84 
معلومات 1 0.66 
معلومات 2 0,75 
معلومات 3 0.85 
معرفة 2 0.55 
معرفة 3 0.64 
معرفة 4 0.90 
نظم 1 0.30 
نظم 2 0.67 
نظم 5 0.88 
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أو تسجيلات تلخص الوثائق» ولكنها جزء من محتوى الوثائق الأصلية المتاحة على 
الإنترنت»ء والتي يطلق عليها صفحات الويب. وفي نظم استرجاع المعلومات التقليدية» 
فإن الملفات التسلسلية تشتمل على بدائل للوثائق في صورة تسجيلات ببليوجرافية 
وصفية ومستخلصات أو ملخصات واشتقاقات لكلمات مفتاحية من بعض المواضع 
المهمة مثل العنوان» الملخص. كما أن المحتوى والتغطية اللذين تتضمنهما قاعدة 
البيانات يحددان المواد التي سيتم استرجاعها من النظام لكل عملية بحث. 


> 1.3.4 آليات البحث 
Search Mechanism‏ 


تتم عمليات البحث في قواعد البيانات من خلال توجيه استفسارات في صورة عبارات 
بحثية إلى محركات وأدوات البحث التي تقوم بدورها بتطبيق آليات البحث التي توفرها 
المحركات على الاستفسارات وتوجهها إلى قواعد البيانات لاسترجاع المعلومات التي يتم 
نيلها وتنظيمها بطرق ثابعة فى ملفات قواغد البيانات» كما Lines fh‏ سابقاً. وتشتمل LT‏ 
البحث على إمكانيات دده عو لسعو التعقيد. والتي يتم تعريفها وتفسيرها وفقاً 
للخوارزميات Algorithms‏ والإجراءات التي يتضمنها نظام استرجاع المعلومات. ويوجد 
بصفة عامة نموذجان أساسيان للبحث في محركات وأدوات البحث هما: 


البحث الأساسى Basic search‏ والبحث المتقدم Advanced search‏ وتش 

تقريباً معظم نظم استرجاع المعلومات على إمكانيات البحث البسيط والمتقدم إلا 
أن إمكانيات البحث المتقدم تحتاج إلى مستفيد على كفاءة ووعي كاملين بإجراءات 
البحث وطرق صياغته؛ حيث إنها تقدم إمكانيات متنوعة ومتعددة في عمليات 
البحث كتلك التي يكسم استخدامها أيضا في الاختبارات المعملية لنظم استرجاع 
المعلومات. وفي السنوات الأخيرة اهتم العديد من نظم استرجاع المعلومات على 
الإنترنت بتطوير إمكانيات وآليات البحث المتقدم» لكي تتيح للمستفيد إمكانيات 
توجيه استفسارات معقدة لمحركات بحث الإنترنت. 


وتشتمل إجراءات البحث على العديد من الإمكانيات التي توظفها نظم استرجاع 
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المعلومات في تحديد العلاقات بين الكلمات التي تشتمل عليها استفسارات 
المستفيدين منها الكلمات المفتاحية» البحث البولينى Boolean search‏ الجذع 
0 التقارب ..Proximity‏ الخ. ويحتاج المستفيد إلى مجموعة متنوعة من 
بكفاءة وفعالية في نظم استرجاع المعلومات. أما النظم الحديثة والمتقدمة التي تشتمل 
على إجراءات بحث معقدة مثل البحث بالوزن Weighted Searching‏ والتى يتم 
تصميمها خصيصاً لكي يتعامل معها فئات معينة تحصل على تدريب مكثف وتمتلك 
خبرات بحثية خاصة تلبي احتياجاتهم المعلوماتية والمعرفية المعقدة. وسوف يتم 
مناقشة هذه الآليات بصورة أكثر تفصيلاً في الفصل الحادي عشر. 


Language اللغة‎ 1.3.5 > 


تعد اللغة الوسيظ الأساسى لنقل وككيل وعرغن المعلومات سوا كانت مقروءة 
أو مكتوبة. وفي هذا السياق تعد اللغة أحد المكونات الأساسية لتمثيل واسترجاع 
المعلومات. ويتم استخدام اللغة في إطار نظم تمثيل واسترجاع المعلومات بطريقتين 
أساسيتين هما: اللغة الطبيعية Natural Language‏ واللغة المضبوطة أو المقيدة 
Controlled Vocabulary‏ فالطريقة التى يستخدمها المستفيدون فى التعبير عن 
احتياجاتهم المعلوماتية في صورة استفسارات يُطلق عليها اللغة الطبيعية. أمافي حالة 
استخدام لغة اصطناعية Artificial Language‏ والتي تتضمن مصطلحات. تراكيب 
«Syntax‏ ودلالاات pi «Semantics‏ ضبطها وتقييدها من خلال ls‏ مصطلحات 
محددة يطلق عليها اللغة المضبوطة أو المقيدة )1996 .(Wellisch & Dowding,‏ 


ويوجد ثلاثة أنواع شائعة من اللغات المضبوطة هي: خطط التصنيف» وقوائم 
المعلومات. وتتيح اللغة الطبيعية» بصفة عامة» قدرة كبيرة على التحديد والدقة 
عليها أو الممارسة لكي يتمكنوا من تطبيقها في عمليات البحث والاسترجاع» LEY‏ 
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الوسيلة الأساسية التي يستخدمونها في حياتهم اليومية للتواصل الشفاهي والمكتوب. 
وغلى العكس: فإن ely‏ وصبانة وتحديث اللغة المضيوطة تعد Lal‏ مكلفاء كما أن 
المستفيدين منها في حاجة إلى تعلم كيفية استخدامها والتدريب على ممارسة البحث 
واختيار المصطلحات من خلالها. ومع ذلك فإن اللغة المضبوطة تساعد على تقليص 
المشكلات والصعوبات التي توجد في اللغة الطبيعية مثل التعقيد» والغموضء وعدم 
الدقة في تمثيل واسترجاع المعلومات Lansdale & Ormerod,1994)‏ وتجدر 
الإشارة إلى أنه يوجد جدل كبير حول المقارنة بين اللغة الطبيعية في مقابل اللغة 
المضبوطة باسترجاع المعلومات يرجع تاريخه إلى نهايات القرن التاسع عشرء 
ومازال هذا الجدل قائما حتى الآن. وتساعد اللغة المستخدمة في عملية التمثيل 
والاسترجاع» بدرجة كبيرة» على تحديد مستوى المرونة والحرفية أو التصنع في نظم 
استرجاع المعلومات. وسوف يتم مناقشة قضية اللغة في تمثيل واسترجاع المعلومات 
بشكل أكثر تفصيلاً في الفصل الخامس من هذا الكتاب. 


Interface Jalzillamalg 1.3.6 > 


ترى شاو (Shaw,1991)‏ أن واجهة التعامل هي الجزء الذي يراه ويلمسه ويستمع إليه 
المستفيد عندما يتعامل مع أي نظام محوسب بصفة عامة» ونظم استرجاع المعلومات 
بصفة خاصة. ويشار إلى واجهات التعامل في إطار نظم تمثيل واسترجاع المعلومات 
بأنها التفاعل الذي يتم بين المستفيد والأنشطة التي يتعامل معها على النظام. كما أن 
هذا المكون يجعل المستفيد عنصراً واضحاً ومتداخلاً مع المكونات الثلاثة الأخرى 
لنظم تمثيل واسترجاع المعلومات (قواعد البيانات» آليات البحث. اللغة). 

تعد واجهة التعامل العنصر الحاسم في الحكم على مدى الصداقة للمستفيد 
.User Friendly‏ فكما تم تحديدها بقانون مورز t Moor's Law‏ فالنظم الأكثر سهولة 
للمستفيد تجذب عدداً أكبر من المستفيدين من النظم المعادية للمستفيد User Hostile‏ 
وفقاً لمعدلات الاستخدام» ويتم تحديد مدى كفاءة واجهة التعامل من خلال التفاعل 
معها وتقييم المعلومات التي تتضمنها مشل قوائم الاختيارات» أساليب العرض» 
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تصميم الشاشات» أنواع الخطوط وغيرها من الأمور المرتبطة بالقابلية للاستخدام 
Usability‏ وقد ركزت معظم النظم على استخدام التكنولوجيا المتأقلمة والفعالة 
Adaptive & Effective‏ في تصميم وتنفيذ واجهات التعامل» اف Cas‏ على 
الجوانب البشرية لتمثيل واسترجاع المعلومات. من ثم تعد واجهة التعامل العنصر 
المحدد لمدى نجاح أي نظام لتمثيل واسترجاع المعلومات» وخاصة إذا كان النظام 
يعمل في البيئة الرقمية. 

بذلك يمكن القول بصفة عامة إن قاعدة البيانات بما تتضمنه من جداول وكشافات» 
آليات البحثء اللغة» وواجهة التعامل» هى مجموعة العناصر الجوهرية المكونة GY‏ 
نظام تفيل وانسترجاع معلوسات: والتى يفافل سها المسخيد عسد ol pa]‏ خملييات 
البحث والاسترجاع. 
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الفصل الثاني 


يل 


واسترجاع المعلومات 


4< 2 مقدمة 


يستعرض هذا الفصل المشكلة الرئيسة التي تحاول كل أنظمة استرجاع المعلومات 
توفير حلول لهاء سواء كانت هذه الحلول في البيئة الورقية أو الإلكترونية أو الرقمية. 
tact‏ | ناك pb US tell‏ ساني( اناس حصا الجانب TEE Bb ll‏ 
النظام وقدرته على استرجاع كل الوثائق الصالحة والمقاييس المستخدمة في 
الحكم على الكفاءة وطريقة تطبيقها؛ والجانب الإجرائي المتعلق بإجراءات التمثيل 
والبحث بقواعد البيانات أو محركات البحث. ثم يستعرض الفصل تمثيل المعلومات 
والتحديات المتعلقة بعمليات التمثيل وآليات التغلب عليها. 


> 2.1 المشكلة الأساسية لتمثيل واسترجاع المعلومات 


يوجد جانبان أساسيان للمشكلة التي تعالجها نظم تمثيل واسترجاع المعلومات» 
الجانب الأول هو الجانب الرياضي المتعلق بقدرة النظام على تحقيق أعلى معدلات 
للاستدعاء والتحقيق في عمليات الاسترجاع» والجانب الثاني هو الجانب الإجرائي 
المتلعق بقدرة النظام على أداء المهام بفاعلية وتوفير متطلبات سهولة الاستخدام من 
جانب المستفيدين. وسيتم فيما يلي استعراض كل جانب من هذين الجانبين وتحليله 


بالتفصيل والتعرف إلى أساليب قياسه: 
> 2.1.1 الجانب الرياضى 


يصف الشكل رقم )2.1( مشكلة استرجاع المعلومات» والتي تسعى كل نظم 
استرجاع المعلومات إلى حلها. ويتضمن الشكل مستطيلين أحدهما كبير والآخر 


الفصل الثاني 


صغير. يشير المستطيل الكبير في الشكل إلى قاعدة Lily‏ ينم إعدادها من 
خلال نظم تمثيل البيانات مثل فهرسة وتكشيف واستخلاص الوثائق التي يتم 
اختيارها وتحليلها في النظام» بينما يمثل المستطيل الصغير استفسار المستفيد 
والنتائج المسترجعة. وتمثل علامة (+) في الشكل الوثائق الصالحة التي يرغب 
المستفيد في استرجاعها من النظام» بينما تمثل علامة (-) الوثائق التي يحكم 
عليها المستفيد من النظام على أنها غير صالحة. وبالطبع فإن مجموعة الوثائق 
غير الصالحة (-) لأي استفسار أكبر بكثير من مجموعة الوثائق الصالحة )+( 
في النظام» بالتالي فإن مشكلة استرجاع المعلومات تتلخص في قدرة النظام 
على استر جاع أكبر عدد ممكن من الوثائق الصالحة في النظام )+( وأقل عدد 
من الوثائق غير الصالحة, وبالطبع فإن الحالة المثالية هي استرجاع كل الوثائق 
الصالحة واستبعاد كل الوثائق غير الصالحة. 


وتعتمد الدقة في الاسترجاع بشكل كبير على مدى الدقة في العمليات» والتي 
تتضمن جزأين رئيسين هما: الجزء الخاص باختيار وتكشيف الوثائق» والجزء الخاص 
بترجمة احتياجات المستفيدين إلى استراتيجيات بحث تتطابق مع المصطلحات 
المستخدمة في التعبير عن المحتوى الموضوعي للوثائق. ويمثل المستطيل الأصغر 
في الشكل رقم (2.1) نتائج البحث في قواعد البيانات. فيوضح المستطيل أنه تم 

















شكل (2.1) نموذج للجانب الرياضي لمشكلة استرجاع المعلومات 
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استرجاع 20 وثيقة منها 6 وثائق صالحة (+)» 18 وثيقة غير صالحة (-). بالتالي يكون 
معدل الوثائق الصالحة إلى إجمالي الوثائق ‘ المسترجعة 24/ 6 أي 5+ ويستخدم 
هذا المؤشر لقياس معدل التحقيق Precession Rate‏ الذي يشير إلى مدى الدقة في 
cle‏ الوثائق الصالحة فقط )1994 , .(Buckland, Fredric‏ 





sac‏ الوثائق الصالحة المسترجعة 


معدل التحقيق = مس X‏ 100 


عدد الوثائق المسترجعة 











ويستخدم معدل الاستدعاء Recall rate‏ للدلالة على استرجاع كل الوثائق الصالحة 
من قاعلة البيانات» بمعنی آخر معدل الوثائق 3 الصالحة المسترجعة إلى إجمالي 
الوثائق الصالحة في قاعدة البيانات. 


فإذا افترضنا أن قاعدة البيانات تتضمن 100 وثيقة صالحة تم استرجاع 6 منهاء 
يكون معدل الاستدعاء فى هذه الحالة )100/6( 100 X‏ أي نحو /6. ويمكن تحسين 
op ele ONL‏ شلال ترس طاق الح في لطا phil‏ نضطلهات 
أكثر شيوعاً أو تردداً في الوثائق» ولكن على الجانب الآخر سوف ينخفض معدل 
التحقيق عند ارتفاع معدلات الاستدعاء» وذلك لزيادة عدد الوثائق المسترجعة» ما 
يزيد احتمال ارتفاع عدد الوثائق غير الصالحة. 


بالتالي» يتضح أن من أهم عناصر كفاءة نظم استرجاع المعلومات العمل على 





عدد الوثائق الصالحة المسترجعة 


معدل الاستدعاء = -------------------------- 100 








إجمالي عدد الوثائق الصالحة في النظام 
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التحسين فى معدلات الاستدعاء التى تؤدي بالتبعية إلى انخفاض معدلات التحقيق 
والعكس شعنم بمعنى أن ارتفاع rey‏ التحقيق يؤدي إلى انخفاض معدلات 
الاستدعاء. من ثم فإن العلاقة بين الاستدعاء والتحقيق هي علاقة عكسية حتمية كما 
هو موضح في الشكل )2.2( 

ويتضح من الشكل )2.2( أنه توجد علاقة عكسية بين الاستدعاء والتحقيق. وتشير 
تلك العلاقة إلى أن زيادة معدلات الاستدعاء تعني زيادة عدد الوثائق المسترجعة» 
وارتفاع احتمالات ظهور وثائق غير صالحة نتيجة لتوسيع نطاق البحث. وعلى 
الجانب الآخر» فإن تحقيق أعلى معدلات الدقة يتطلب صياغات معقدة لعبارات 
البحث وتضييق نطاق البحث إلى أقصى درجة ممكنة» ما تقل معه فرص استرجاع 
عدد كبير من الوثائق» حيث إن الهدف من التحقيق هو الوصول إلى أعلى معدلات 
الصلاحية في الوثائق المسترجعة. 
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شكل )2.2( العلاقة العكسية بين الاستدعاء والتحقيق )1994 , (Buckland, Fredric‏ 
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إذا افترضنا أن مستفيداً يبحث عن سيارات الدفع الرباعي من فئة تويوتا. وبفحص 

نظام استرجاع المعلومات تم التوصل لمايلي: 

- 50 وثيقة في موضوع السيارات 

- 20 وثيقة في موضوع الدفع الرباعي 

- 100 وثيقة في الموضوع تويوتا (على افتراض أن المصطلح تويوتا قد يمثل 
اسم شخص» موديل سيارة» اسم مصنع» أو شركة.. الخ). 

أقصى لهذا الاستفسار. فإذا فحص المستفيد النتائج» ووجد أن هناك 5 وثائق غير 

صالحة» وعلى افتراض أن النظام يحتوي على 50 وثيقة صالحة. 

بالتالى يكون معدل الاستدعاء = )15 / 50) * 100 = 30 .7 

ومعدل التحقيق = )20/15( * 100 = 75 / 

ويللاحظ من هذه النتيجة ارتفاع معدل التحقيق وانخفاض معدل الاستدعاء. 

فإذًا افترضنا أن المسقيد oly)‏ الحصول على owe‏ أكبر من Gs SI‏ فأضاف 


مصطلح الدفع الكلي إلى مصطلح الدفع الرباعي» وربط بينهما بالمعامل OR‏ لتصبح 
عبارة البحث كالتالي: 


سيارات AND‏ (الدفع الرباعي 0۸ الدفع الكلي) AND‏ تويوتا 
وقد أصبح عدد النتائج المسترجعة وفقاً لهذه الاستراتيجية كالتالي: 
سيارات - 50 وثيقة 


الدفع الرباعي 0۸ الدفع الكلي = 35 وثيقة 


تويوتا - 100 وثيقة 
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ما يعني أنه يوجد 15 وثيقة مكشفة تحت مصطلح الدفع الكلي» وأن خمس وثائق 
من هذه المجموعة ورد فيها مصطلحا سيارات وتويوتاء بالتالي تكون نتيجة العبارة 
البحثية كالتالي: 


E‏ مسد جا بهو vail‏ عن ال بط يبع التصطلخات الأريعة Lady‏ العبارة 
البحثية السابقة. وإذا افترضنا أن عدد الوثائق الصالحة بالنظام كله بعد إضافة المعامل 
الجديد ارتفع من 50 وثية ثيقة إلى 55 وثيقة . وعند تقييم المستفيد للنتائج المسترجعة 
(25) وجد أنه توجد 18 وثيقة ثيقة صالحة و7 وثائ ئق غير صالحة. 

الاستدعاء = )18 / 55( * 100 = 7.32.7 

التحقيق = )18 / 25( * 100 = 7.72 


ويلاحظ من المعادلة أن معدل الاستدعاء زاد بنسبة 2./ تقريباًء تبعه انخفاض في معدل 
التحقيق يسبة 3 cL at‏ ما يو كد العلاقة العكسية الحمية بين الاستدعاء والتحقيق» 
والتي تأني كنتيجة منطقية لطبيعة العلاقة» حيث إن ارتفاع الاستدعاء بتطلب توسيع 
نطاق البحث فى حين التحقيق يتطلب تضييق نطاق البحث لتحقيق أعلى معدلات الدقة 
في النتائج Toral‏ وتجدر الإشارة إلى أن العلاقة العكسية في الزيادة والنقصان 
تحدث بشكل نسبي» ولا تسير في اتجاه الزيادة والنقصان المطلق فقطء بمعنى أن الزيادة 
في الاستدعاء قد تتبعها زيادة في التحقيق ولكن بمعدل أقل في أي منهما. 


كما يتضح من الشكل (2.1) أيضاً ظاهرة أخرى من ظواهر نظم تمثيل واسترجاع 
المعلومات تتمشل في أنه من الممكن توسيع نطاق البحث لاسترجاع كل الوثائق 
الصالحة (بمعنى تحقيق 100 / استدعاء)» ولكن ذلك سوف يجعل معدل التحقيق 
de Lii‏ هذا إضافة إلى أنه كلما كبر حجم قاعدة ited Ll‏ معها معدل 
التحقيق المحتمل في مثل هذه الحالات. فالمستفيد قد يرغب في فحص مستخلصات 
5 وثيقة لكي يصل إلى 5 وثائق صالحة» بينما قد لايرغب في فحص 100 وثيقة 
لكي يحصل على 25 وثيقة صالحة» لأن هذا يتطلب جهداً أكبر ووقتاً أطول. بالتالي 
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فإنه مع زيادة حجم قاعدة البيانات قد يكون من الصعب تحقيق مستوى مقبول من 
ركزت على هذه النقطة الجدلية ومازالت هذه النقطة محل خلاف بين الباحثين فى 
مجال استرجاع المعلومات. 


ويستخدم لانكستر مصطلح الاستدعاء للدلالة على استرجاع الوثائق الصالحة» أو 
بشكل أكثر دقة للدلالة على تجنب الوثائق غير الصالحة. كما توجد مقاييس أخرى 
لقياس أداء البحث في قواعد البيانات. (انظر على سبيل المثال روبرتسون وجونز 
Robertson & Jones, 1976‏ ). بعض هذه المقاييس رياضي ببحت» إلا أن الاستدعاء 
والتحقيق هما أكثر المقايبس استخداماً وتطبيقاً في الأنظمة والدراسات» لما لهما من 
قدرة على توضيح الصورة العامة لكفاءة نظم تمثيل واسترجاع المعلومات. كما يبدو 
أنهما مازالا أكثر المقاييس وضوحاً للتعبير عن نتائج البحث» حيث Lagi]‏ يقسمان 
قاعدة البيانات ببساطة إلى قسمين هما وثائق مسترجعة ووثائق غير مسترجعة أو 
وثائق صالحة ووثائق غير صالحة. 


ونظرا للعلاقة العكسية الراضحة بين الاسعدعاء والمحقيق تسن ASU‏ من الانظمة 


إلى استخدام معامل تطبيع البيانات» والذي يعرف بالمعامل F‏ وهو عبارة عن مؤشر 
لمقياسي الاستدعاء والتحقيق ويتم قياسه وفقاً للمعادلة التالية )1992 (Su,‏ 


التحقيق × الاستدعاء 2 = ۴ معامل 


التحقيق + الاستدعاء 





الاستدعاء 


الفصل الثاني 


> 2.1.2 الجانب الإجرائي 


تحاول كل نظم تمثيل واستر جاع المعلومات حل المشكلة الإجرائية المتعلقة بآلية 


كيف يمكن الحصول على المعلومات الصحيحة للمستفيد المناسب في الوقت 
الملائم» على الرغم من وجود متغيرات أخرى كثيرة (مثل سمات المستفيدين)» 
تغطية قاعدة البيانات في بيئة نظم تمثيل واسترجاع المعلومات اختلاف أساليب 
البحث والاسترجاع وخوارزميات معالجة المعلومات.. إلخ. 


ويشتمل الشكل (2.3) على نموذج مبسط للمشكلة التي تعالجها نظم استرجاع 
Le glee‏ :من الاس sla YI‏ 


































































المدخلات Paar‏ 
مجتمع أوعية المعلومات 
التكشية 
Indexing‏ 
قاعدة بيانات بدائل الوثائق ___________ ےا مخزن الوثائق 
استراتيجيات 1 l‏ 
i‏ 
1 
i‏ 
إعداد ! 
استراتيجيات ! 
1 
i‏ 
7 1 
t 2‏ 
المخرجات مجتمع المستفيدين 














شكل (2.3) العلاقة العكسية بين الاستدعاء والتحقيق (1994 , (Buckland, Fredric‏ 
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فالمشكلة الأساسية التي تعالجها معظم نظم استرجاع المعلومات هي مضاهاة 
احتياجات المستفيدين ببدائل الوثائق المخزنة في قواعد البيانات بنظم استرجاع 
المعلومات. وتشتمل تلك البدائل على تبسيط للرسائل التي يسعى المؤلفون إلى 
توصيلها إلى مجتمع المستفيدين والتي تظهر في النصوص أو الوسائط غير النصية 
التي يقومون بتأليقها في الوقت الذي يتم فيه peal‏ عن احتياجات المستفيدين في 
صورة طلبات يتم توجيهها إلى خدمات المعلومات. 


وتقوم نظم استرجاع المعلومات بالتعامل مع إعداد بدائل للنصوص (التي يمكن 
أن تتراوح بين النص الكامل للوثيقة في شكل إلكتروني أو أجزاء من ذلك النص إلى 
تسجيلة ببليوجرافية بسيطة تمثل الوثيقة) ويتم تخزينها في قاعدة بيانات يمكن البحث 
فيها من خلال إحدى أدوات البحث والاسترجاع. ويمكن تخزين قاعدة البيانات في 
صورة وثائقية أو إلكترونية» ولكنها غالباً ما تناح عبر شبكة الإنترنت حالياً. أما الأداة 
التي تستخدم في بحث تلك النظم فيمكن أن تتراوح ما بين النظم التقليدية مشل 
الفهارس البطاقية أو الكشافات المطبوعة» ولكنها في معظم الأحوال حاليا تناح من 
خلال محركات وأدوات البحث المتاحة من خلال شبكة الإنترنت والأجهزة الذكية. 


ويتم تجهيز بدائل لطلبات المستفيدين (والتي يتم تمثيلها في شكل مصطلحات 
يتم الربط بينها من خلال مجموعة من الروابط المنطقية أو تعبيرات نصية أو كيانات)» 
فعلى سبيل المثال تسمح بعض النظم للباحث بإدخال تفاصيل عن أحد الكيانات 
المعروفة بأنها صالحة للبحث عن مواد مشابهة لهذا الكيان. ويتم استرجاع بدائل 
النصوص التي تضاهي بديل الطلب. 


ومن أهم المشكلات التي تواجهها مثل هذه النظم أن الرسالة التي يريد المؤلف 
توصيلها لم يتم التعبير عنها بشكل جيد في النص الذي يعتمد عليه في إعداد بديل 
الوثيقة» وفي المقابل يمكن أن تكون استراتيجية البحث التي تعبر عن طلب المستفيد 
تق إعدادها [Sts‏ عبر جيه رمو لا لامي اضاجات السك 


بذلك يمكن القول إن مشكلة استرجاع المعلومات يمكن التعبير عنها بأنها محاولة 
مضاهاة بدائل احتياجات المستفيدين ببدائل رسائل المؤلفين التي يتم التعبير عنها 


الفصل الثاني 


في نصوص الوثائق. وترى باتس )1996 (Bates,‏ أن مشكلة استرجاع المعلومات 
تبدو أكثر تعقيداً مما هي عليه» حيث أشارت إلى أنها مشكلة لا تقتصر على جانب 
واحد في التعامل مع النظم» فهي تشمل جانبي المدخلات والمخرجات. ولصعوبة 
التعامل مع جانب المدخلات ركزت معظم الدراسات بشكل أساسي على جانب 
المخرجات في أنشطة استرجاع المعلومات المتمثل في احتياجات المستفيدين 
وبدائل الطلبات» واستراتيجيات البحث أكثر من تركيزها على المدخلات المتمثلة 
فى رسائل المؤلفين وبدائل النصوص. وذلك على افتراض أن جانب المدخلات 
أكثر تعقيداً من جانب المخرجات. 


وقد أشار بيلكن )1980 (Belkin,‏ إلى مشكلة استرجاع المعلومات على أنها 
محاولة مضاهاة بين حالة معرفية مجهولة لصاحب الطلب بحالة معرفية أكثر تماسكا 
وتحديداً والمتمثلة في نص المؤلف. ويتمثل دور المكشف في محاولة التنبؤ بأنواع 
الطلبات التي يمكن أن ترد لطلب وثيقة معينة» والتي تعد في هذه الحالة استجابة 
جيدة للطلب» ما يحقق رضا المستفيد. ويمكن إنجازها من خلال دور المكشف 
الذي يحاول تحديد أنواع الوثائق التي تلبي احتياجات مستفيد بعينه في وقت معين. 


كما يتضح في الشكل (2.3) أنه يمكن استخدام الخوارزميات في بعض أنشطة 
استرجاع المعلومات كبديل للتحليل المفاهيمي أو المعالجة البشرية للوثائق. ويتم 
استخدام ذلك في نظم التكشيف والاستخلاص الآلية وغيرها من العمليات التي 
تشتمل على معالجات لفئات معينة من الوثائق والمصطلحات مثل بناء استراتيجيات 
البحث وإعداد شبكات الربط سخ المصطلحات» كما هو الحال في المكانز 
والأنطولوجيات (أدوات معالجة المصطلحات). فكما هو واضح من الشكل يمكن 
للحاسبات أن تستخدم لمساعدة المكشفين ‏ كما هو الحال في معظم قواعد البيانات 
ومحركات البحث المتاحة عبر الشبكة العنكبوتية» كبديل للمكشفين وذلك في كل 
أنشطة ومكونات نظم استرجاع المعلومات. 


وقبل البدء في مناقشة آليات تمثيل واسترجاع المعلومات بالتفصيل» لابد من 
التعرض لعملية تمثيل واسترجاع المعلومات للتعرف إليها بدقة. 
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> 2.2 عملية تمثيل واسترجاع المعلومات 

المستفيد بإجراء البحث واستقبال النتائج المسترجعة» لذلك فإن أي معلومات يتم 
استرجاعها من قاعدة البيانات يلعب أخصائي المعلومات دوراً محورياً في تنظيمها 
وفقاً للغة المستخدمة بالنظام. وكثيراً ما تظهر بعض التناقضات أثناء عملية تمثيل 
واسترجاع المعلومات» والتي من الممكن أن تؤدي إلى مشكلات كبيرة إذا كانت 
اللغة المقيدة هي اللغة المستخدمة ويرجع ذلك للأسباب التالية: 


أولاً: الاختزال: OY‏ المعلومات التي يتم تسجيلها في صورة مقالات» دوريات أو 
تقارير فنية أو أعمال مؤتمرات يتم تمثيلها في صورة ملخصة باستخدام مصطلحات 
التكشيف Indexing terms‏ وما يشبههاء من ثم فاسترجاع المعلومات الأصلية يبدو 
من الصعب تحقيقه. فالعملية تشبه هنا تمثيل وثيقة كبيرة بها آلاف الكلمات بعدد 
محدود من الكلمات» من ثم يكون هذا التمثيل اختزالا للبعد الخاص بالجحم. 

ثانياً: المضاهاة الجزئية: تعد أي لغة مضبوطة جزءاً من اللغة الطبيعية التي تم كتابة 
الوثيقة الأصلية بهاء لذلك من الصعب أن تحدث مضاهاة كاملة بين كلمة في وثيقة 
وأخرى مشتقة من مكنز مصطلحات (لغة مضبوطة) لأغراض التمثيل. فمن الممكن 
أن يكون المكشف قد قام باختيار مصطلح مرتبط أو مصطلح أضيق أو أوسع للدلالة 
على المفهوم الذي يرغب في التعبير عنه من الوثيقة» وهو مايجعله غير مطابق كليا 
للمصطلح الوارد في الوثيقة. 

ثالشاً: عدم الاطراد ‘inconsistency‏ من التحديات التي يصعب تحقيقها في 
عمليات التمثيل هو الثبات في تمثيل المعلومات (بمافي ذلك عملية تحليل 
المفاهيم)» والذي يعدو حي ا قام asi‏ مدع pada‏ أن نظا بآداء المهمة: 
وقد أشار (كلفردون 1984 (Cleverdon,‏ إلى أن أكثر المكشفين خبرة يتفقون فقط في 
حدود 30 7 فقط في المصطلحات المستخدمة في التكشيف إذا قاموا بتكشيف نفس 
الوثيقة» بمعنى أن الاطراد بينهم لا يتجاوز 30./. وفي السياق نفسه وجد (ميتشل 


الفصل الثاني 


(Mitchell,2003‏ أن معدلات الاتفاق بين مصطلحات التكشيف باستخدام قائمة 
رؤوس الموضوعات الطبية" MESH‏ في بناء قاعدة بيانات Medline‏ لم يتجاوز 
نسبة 49 / من المصطلحات المستخدمة في تكشيف الوثائق الطبية. وهو نفس ما 
توصل إليه محمد )1999( فيما يتعلق بتكشيف الدوريات العربية بقواعد البيانات 
الوطنية المصرية» حيث توصل إلى أن نسبة Vol bY‏ تتجاوز 40 / فى مصطلحات 
التكشيف» على الرغم من التوافق حول الأدوات والسياسات المستخدمة. إلا أن عدم 
الاطراد يأتى من اختلافات بين المكشفين فى عمليات التحليل المفاهيمى والترجمة. 


وعلى الجانب الآخرء يحتاج المستفيدون إلى تحويل احتياجاتهم المعلوماتية 
إل استفسارات باستخدام لغات نظم تمثيل واسترجاع المعلومات» بحيث يمكن 
استخدام هذه الاستفسارات في إجراء البحث بقواعد البيانات باستخدام آليات 
البحث المتاحة. وقد أشار الباحثون منذ القدم إلى مدى تعقد تلك العملية» فقد 
أوضح بلير ومارون 1985 (Blair & Maron,‏ أنه من الصعب أن يستطيع المستفيد 
التنبو بالكلمات المطابقة تماماً Exact Words‏ أو مزيج الكلمات Word Combination‏ 
للمصطلحات التي تستخدم تمثيلاً في كل أو معظم الوثائق الصالحة (295.م). وإضافة 
إلى ذلك» فإن استخدام المصطلحات المضبوطة وإمكانيات البحث (مثل البحث 
البوليني) سوف يزيد من تلك الصعوبة. وعادة ما يتم استخدام اللغة الطبيعية في 
البحث بالاعتماد على العبارات والجمل الكاملة التي يتم استخدامها في التواصل 
في حياتنا اليومية دون أي إجراءات لبناء الاستفسارات (على سبيل المثال لماذا 
لون السماء أزرق) أصبح أمراً من الممكن البحث عنه على الإنترنت بنفس الطريقة 
التي يصيغ بها المستفيد استفساره؛ إلا أن الطريق مازال طويلا أمام الباحثين في هذا 
المجال» لتوفير آليات لمعالجة اللغة الطبيعية التي تعد أحد أقسام الذكاء الاصطناعي 
(Artificial Intelligence (AI‏ لإحداث التطوير المنشود فى عمليات البحث بالأسئلة 
المباشرة. یکی 2 eal aes‏ لحت يوز eal‏ لاوا ایک 
بين تمثيل المعلومات بالنظام والاستفسار الذي يتم توجيهه من خلال المستفيد 





.MESH: Medical Subject Headings (1) 
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إلى النظام. أي أن عملية البحث تنجح عندما يحدث التطابق بين استفسار المستفيد 
والمعلومات التي يتم تمثيلها بقاعدة البيانات التي يتم البحث فيهاء وفي حالة عدم 
التطابق لن يستطيع النظام استرجاع النتائج الصالحة. 

لذلك» فإن المضاهاة هي الآلية الأساسية بنظم تمثيل واسترجاع المعلومات 
وكماهو موضح في الشكل (2.3). مع ملاحظة أنه توجد عدة أنشطة بعملية تمثيل 
واسترجاع المعلومات يمكن أن تؤدي إلى التناقض في المضاهاة. فالهدف النهائي 
لجودة نظم تمثيل واسترجاع المعلومات هو استخدام كل الطرق والتقنيات الممكنة 
لتقليل أو حتى القضاء على كل التناقضات التي تظهر أثناء عملية التمثيل والاسترجاع. 


> 2.3 تحديات التمثيل واسترجاع المعلومات 


تمثيل واسترجاع المعلومات؛ فإنه يوجد مجموعة من التحديات التي فيما يبدوا أنها من 
الصعب التغلب عليها. فقد قام سوانسون )1998 (Swanson,‏ بعرض أفكاره عن التكشيف 
والاستر جاع الآلى Automatic Indexing & Retrieval‏ قام باستخدام مصطلح شحكة 
تايلور ويتكار Taylor Whittaker‏ المعروف بمسلمات العجز Postulate of Impotence‏ 
الرغم أن ذلك كان في عام 1988 والذي يشير إلى بدايات عصر الميكنة» إلا أن بعض هذه 
الصعوبات والتحديات التي وردت في المسلمات التسع لايزال قائماً ونذكر منها على 
سبيل المثال المسلمات 1» 23 4» 9. وهذه المسلمات التسع هي: 


1. «لايمكن التعبير عن الحاجة إلى المعلومات بصورة كاملة في صورة طلب 
بحث؛ حيث لا يمكن صياغة السؤال بصورة دقيقة وبشكل مستقل عن 
الافتراضات المسيقة التي تكون في ذهن pt el‏ والتى Y‏ صر =L‏ 
كما أنه من المستحيل وصف السياق المعرفي للمستفيد بصورة كاملة» لأنه 
يشمل» ضمن أمور أخرىء الخلفية المعرفية الخاصة بالمستفيد والطلب». 
ويرجع ذلك إلى أن هذه الاحتياجات تنبع أساساً من حالة عدم يقين أو عدم 


الفصل الثاني 


المعرفة والغموض والالتباس» ومن ثم Y‏ يمكن لتلك الحالة الغامضة أن 
ينتج عنها سؤال دقيق أو طلب استفسار سليم 100/. وتجدر الإشارة إلى 
ننا قمنا بدراسة للتغلب على هذا التحدي من خلال ابتكار نموذج تفاعلي 
لسد الفجوة في حالة عدم اليقين وتحويلها إلى حالة تفاعل تمكن الباحث 
من الوصول إلى اليقين (انظر محمد 2013). 


هي افتراضات واختزالات أو تخمينات لحالة معرفية؛ بالتالي لا توجد قوانين 
حاكمة لهذا الأمر). 


«لايمكن اعتبار الوثيقة صالحة لطلب معلومات بشكل مستقل عن جميع 
الوثائق thas YI‏ يجب أن يأخذها المستفيد فى hse‏ فالصلاحية 
E‏ مو | Blears‏ لآخرء 
ومن مستفيد لآخر» ويجب أن تراعى الإطار المعرفى المتغير Shifiting‏ 
l l .(Knowledge Framework‏ 


«من المستحيل أن تؤكد أو تنفي أن كل الوثائق الصالحة لاستفسار معين تم 
الوصول إليها ضمن قائمة النتائج المسترجعة» كما أنه لايمكن SVT‏ 
مستفيد في الممارسة العملية أو من حيث المبدأ فحص جميع الوثائق سواء 
المسترجعة أو الصالحة بالنظام». 


«لايمكن للأجهزة حتى الآن» أن تتعرف إلى المعنی» بالتالي لا يمكن أن 
يحدث تطابق كامل بين آليات عمل الأجهزة وما تقوم به من عمليات 
تكشيف وتصنيف» وأحكام الصلاحية التي يقوم بها البشر. فالنتيجة الطبيعية 
لذلك: أن بعض المكشفين طوال الوقت» وجميع المكشفين في بعض 
الأوقات» لا يمكنهم تحقيق التطابق مع مايمكن للمستفيدين إضافته إلى 
عمليات التكشيف والتصنيف أثناء إجراء أحكام الصلاحية». وهو ما دفع 
الباحثين إلى ابتكار أساليب التوسيم الاجتماعي Social Tagging‏ 
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6. «معدل تردد المصطلحات Word-occurrence‏ لا يمكن أن يمثل المعنى أو 
حتى يكون بديلاً له. ومع ذلك فإن هذه البيانات يمكن أن تستخدم لتحقيق 
نجاح عرضي في عملية البحث» في الإشارة إلى أو لتحديد المناطق المهمة 
في gp See ep I yall‏ المد أن ردد ها في اليك عن المعبى أن 
ee‏ على الصلاحية». l‏ 

T‏ «لا يمكن تقييم قدرة نظام استرجاع المعلومات على دعم عملية تكرارية من 
خلال أحكام الصلاحية المفردة التي يجريها المستفيد مرة واحدة لعمليات 
متكررة <single-iteration human relevance judgment‏ فالعمليات المتكررة 
تحتاج إلى معايير جديدة للحكم مثل قدرة النظام على تحفيز المراجعة 
الإبداعية للسؤال أو الاستفسار أثناء تفاعل المستفيد مع النظام». 

8. «لايمكن للنظام أن يجمع بين أحكام الصلاحية البشرية والآلية» فالنظام إما 
أن يستخدم أحكام صلاحية بشرية دقيقة أو إجراءات ميكانيكية فعالة للغاية» 
لكن ليس كليهما معاً». 

9. «باختصار تشير المسلمات الثمانى الأولى إلى أن تحقيق الفعالية والكفاءة 
الكاملة باطراد من خلال ارات التكشيف والاسترجاع الآلي أمر غير 
ممكن من الناحية العملية». 

فالمشكلة المفاهيمية Conceptual Problem‏ لاستر جاع المعلومات كما وصفها 

ساونسون )1998 (Swanson,‏ هي من أكثر الأمور أهمية في فهم وتطوير مجال 
استرجاع المعلومات. فالفحص الدقيق لعملية تمثيل واسترجاع المعلومات يوضح 
أن هذا المجال يتضمن» كما أوضحنا مسبقاء مضاهاة للمصطلحات وليس بحثا 
عن المفاهيم في البيئة الرقمية. فعندما يكون المصطلح البحثي المواصلات العامة 
Public Transpotation‏ على سبيل المثال لا يمكن استرجاع الوثائق التي تتناول 
موضوعات الطرق» الأتوبيسات ومترو الأنفاق؛ إلا إذا كان هناك علاقات تربط بين 
تلك المصطلحات فى قاعدة بيانات من خلال قائمة المصطلحات المضبوطة أو 
Les Holl‏ الدلالى مسن قم فالمقتكلة المقاهيمية لاست جا المعلومات pla gly‏ 
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عليها مشكلات المعنى problems of meaning‏ لا تقل isi Lise‏ جوهرها عن غيرها 
من أشكال HS LW‏ الذكي «Intelligent behavior (p.96)‏ وهوالموضوع الذي ركزت 
عليه دراسة بناء المفاهيم وإشكالية دلائل المصطلحات التي قام بها مؤلف هذا 
OLS‏ لوضع آلية لتفاعل المستفيدين مع النظام تمكن من التغلب على المشكلة 
الا عد cds) Ob Nis‏ 120135 


من شع See‏ القرل بإيجاق إن مشكلة اسعرباع المعلومنات الي شم اعرالا قي 
عملية مضاهاة مصطلحات ومدى مطابقة الكلمات البحثية للمصطلحات الكشفية» هى 
أعمق بكثير من مجرد عملية مضاهاة سطحية إلى مضاهاة في الدلالات والمعاني 


ونختتم هذا الفصل بسؤال مهم: هل يمكن أن ينتقل استرجاع المعلومات في 
يوم ما من مجرد أداة لمضاهاة المصطلحات إلى ابتكار آليات للبحث عن المفاهيم؟ 
الإجابة عن هذا السؤال تم اختبارها ومحاولة الرد عليها بقوة من خلال التجربة 
والخطأ (9132502,1998). ويمكن الوصول إلى إجابة كاملة عنها فى كتاب الويب 
الدلالي (محمد وآخرون» 2018( l‏ 
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الفصل الثالث 


تمثيل المعرفة: 
قضايا أساسية 


4< مقدمة 


تتنوع أشكال الوثائق وأنواع مصادر المعرفة التي تعد الناقل الأساسي للمعلومات» 
حيث تحمل المعلومات التي يتم إنتاجها لأغراض تداول المعرفة منها أعمال 
المؤتمرات» مقالات الدوريات» التقارير الفنية.. إلخ. وتحتاج هذه الوثائق إلى أن 
يتم تمثيلها قبل إتاحتها للبحث والاسترجاع» فلا يمكن استرجاع المعلومات التي 
تتضمنها الوثاة ثق بالاعتماد عليها فقط؛ حيث يحتاج نشاط استرجاع الوثائق ق إلى le‏ 
لتلك الوثائق والتي عادة ما تأخذ أشكالاً متنوعة مثل الكشافات» المستخلصات» 
والملخصات» وغيرها. ويتم التعبير عن تمثيل الوثائق في هذا الكتاب للإشارة إلى 
جوهر الوثيقة أو المحتوى الموضوعي باستخدام آلية معينة بمصطلح تمثيل المعرفة 
على الرغم من أن عملية التمثيل تركز على مخرجات المعرفة التي يتم نشرها في 
صورة وثائق وأوعية معلومات متنوعة. وقد تم استخدام مصطلح تمثيل المعرفة في 
هذا الكتاب UYU‏ على تمثيل الوثائق التي تعد مخرجات المعرفة الحقيقية والتي 
تشكل الذاكرة الخارجية للإنسان في مقابل الذاكرة الداخلية؛ كما تشير إلى كل 
العمليات الفنية التي تتم على أوعية المعلومات ومنها التكشيف (الهجرسي» 1991). 

وتجدر الإشارة إلى أن المتتج النهائي من الممكن أن يأخذ أشكالاً متنوعة» فمن 
الناحية النموذجية يجب أن تتم عملية تمثيل الوثائق ق بسهولة وفعالية من خلال إجراءات 
التمثيل التي ستتناولها بالتفصيل. وقد أشار ليسك )1997 (P99 - 100 Lesk,‏ إلى ما 
يلي: إذا كان من الممكن تمثيل المعرفة بطريقة واحدة يمكن من خلالها تنظيم الأفكار 
في مواضع ثابتة» وإذا كان المستفيد على دراية بتلك الطريقة ويمكنه توجيه الاستفسارات 

يقة تتماشى مع تلك الآلية؛ فإن عملية الاسترجاع الموضوعي سوف تعمل بثبات 
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cal bly‏ لكن من الناحية العملية من المستحيل أن يتم استخدام طريقة واحدة لتمثيل 
المعرفة تخدم كافة الأغراض؛ علاوة على ذلك فإن تطبيق عملية التمثيل باطراد ودقة 
مازال يواجه العديد من التحديات من وجهة نظر أخصائي المعلومات» حتى لو كان 
اعفان ft Yj lla ab‏ تحدياء اة pw‏ طرق (te | tol‏ الس Shaler‏ 
لاتستخدم طريقة واحدة ثابتة في التمثيل. لذلك فإن تمثيل مخرجات المعرفة في 
جوهره يحمل كثيراً من التحديات والتعقيدات» وسنتناول فيما يلي الآليات المختلفة 
المستخدمة في تمثيل مخرجات المعرفة في صورة بدائل SUS‏ المخرجات. 


> 3 طرق التمثيل 


توجد أساليب متنوعة لتمثيل المعلومات تشمل كل الآليات التي تستخدم في بناء 
مؤشرات أو بدائل للوثائق. ويستعرض الجزء التالي الأساليب المتنوعة للتمثيل والتي 
تشمل التكشيف» التصنيف أو التقسيم إلى فقات» التوسيم الاجتماعي» التلخيص» 
الملخص الوافي للموقع. 


Indexing التكشيف‎ 3.1 > 


يعد التكشيف أحد أنماط تمثيل مخرجات المعرفة التي تم استخدامها على 
نطاق واسع من جانب الأخصائيين عبر العصورء ويعتمد التكشيف على استخدام 
مصطلحات (مثل الكلمات والعبارات) سواء كانت بالاشتقاق أو بالتعيين للتعبير عن 
الأوجه المهمة للوثيقة الأصلية. 

وعادة ما be‏ إليه على أنه العملية التي يتم من خلالها إعداد كشاف يساعد 
على الوصول إلى التفاصيل الدقيقة للوثائق. وبتجريد المصطلحين تكشيف وكشاف 
نجد أنهما مشتقان من أصل لغوي واحد وهو «كشف» وتشير القواميس اللغوية إلى 
أن ES)‏ الشيء) يعني أزال الغطاء عنه أو رفع عنه ما يواريه. وقد دخلت كلمة 
الكشاف اللغة الإنجليزية فى العصور الوسطى وتتكون من مقطعين هما In - dex‏ 
pE‏ ما E Jel‏ أما Dex‏ فتعني يشير إلى) أو «يلفت الانتباه إلى» أو 
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يدل على وجود شيء». وقد استخدمت كلمة تكشيف في اللغة الإنجليزية بمعنى 
إعداد كشاف أو إدخال كلمة في كشاف» ثم لحقتها كلمة مُكّشّف Indexer‏ وتشير إلى 
الشخص الذي يقوم بإعداد الكشاف. 

ويتضح من ذلك أن المعنى اللغوي لكلمة كشاف سواء في اللغة العربية أو في اللغة 
الإنجليزية يشير إلى إظهار الشيء أو كشف النقاب عنه مع ملاحظة أن اللغة الإنجليزية 
أظهرت معاني أخرى للكلمة منها قائمة تسبق الكتاب» وقائمة في نهاية الكتاب تضم 
الأسماء والموضوعات كما تشير إلى أماكن ورودها في النص. (حسام الدين» 1994) 

أما المعنى الاصطلاحي لكلمة كشاف فنجد له تعريفات متعددة منها تعريف 
(عبدالهادي» 2005) الذي عرف الكشاف على أنه دليل محتوى المواد التي يحللها 
أو يكشفها بوساطة دوال معينة ويحدد موضعها أو موقعها بوساطة روابط معينة. كما 
يعرفه على أنه عبارة عن قائمة أو دليل بمحتويات المواد التي يكشفها بهدف تحديد 
المفاهيم التي تعالجها والموضوعات التي تعبر عن هذه المفاهيم والأماكن التي 
وردت فيها في النص. 

التكشيف هو تلك العملية الفنية التي ينتج عنها إعداد الكشافات. ويشير لانكستر 
إلى أن التكشيف هو عملية تحليل المفاهيم Conceptual Analysis‏ المرتبطة بمصادر 
المعلومات التي يتم تكشيفها ونقل هذه المفاهيم إلى مصطلحات تعبر عن المحتوى 
الموضوعي للوثيقة Document Aboutness‏ من خلال الاعتماد على لغات التكشيف. 

ويتراوح عدد المصطلحات الكشفية التي تستخدم للدلالة على وثيقة معينة ما 
بين عدد محدود من الكلمات بقاعدة بيانات ببليوجرافية إلى مئات الكلمات بنظم 
النصوص الكاملة. وتنقسم عملية التكشيف التي يتم فيها التعبير عن المحتوى 
الفكري للوثيقة إلى مرحلتين أساسيتين هما: 

Conceptual Analysis التحليل المفاهيمي‎ - 


.Translation والترجمة‎ - 
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وبصورة أكثر تحديداًء يتم في إطار عملية التحليل المفاهيمي تحديد المفاهيم 
الأساسية التي تتناولها الوثيقة» بينما يتم في مرحلة الترجمة تحويل المفاهيم التي تم 
تحديدها الى LES wholes‏ بالاععماد على E Lad‏ محدة مسقا 

ويعرف (عبدالهادي» 2005) عملية التكشيف بأنها عملية خلق أو إيجاد المداخل 
فى الكشاف أو إعداد المداخل التى تساعد على الوصول إلى المعلومات فى مصادرها 


وهي تتضمن 4 عمليات فرعية هي: 
1. الفحص الدقيق لأوعية المعلومات للتعرف إلى ما تشتمل عليه من أفكار 
ومعلومات. 


2. تحليل المحتوى الموضوعي للوثائق للتعرف إلى المفاهيم التي تتناولها. 
3. تحويل أو نقل المفاهيم إلى مصطلحات مشتقة من لغة التكشيف أو من 
الوثائق ذاتها. 


4. إضافة الروابط التي تعبر عن مكان وجود كل وحدة من الوحدات التي تم 
تكشيفها داخل المجموعة. 

وقد استخدم بعض الباحثين مصطلحات أخرى للدلالة على عملية التكشيف 
ومصطلحات التكشيف دون تمييز واضح بينها. على سبيل المثال مصطلحات مثل 
مؤشرات المحتوى Indicators Of Content‏ للدلالة على المصطلحات» بينما ينظر 
إلى عملية التكشيف على أنها عملية تحديد المحتوى والمؤشرات الدالة عليه 
والعلاقات التي تربط بين المؤشرات في الوثائق» بينما يفضل كونر Connor‏ استخدام 
مصطلح مثل إعداد إشارات Pointing‏ ويشير إلى مصطلحات التكشيف على أنها 
5 وينظر لعملية التكشيف على أنها عملية تحديد إشارات تصف مضمون 
الوثائق )1991 (Lancaster et el.,‏ وتعد الكشافات المخرج الأساسي لعملية تمثيل 
المعلومات عن طريق التكشيف سواء تمت تلك العملية بطريقة آلية أو يدوية. 
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< 3.1.1 أهمية الكشافات 


الكشافات أو قواعد البيانات الببيلوجرافية هي إحدى الأدوات الأساسية لاسترجاع 
المعلومات. وأدوات الاسترجاع بصفة عامة هي عبارة عن نظم تم إعدادها لتيسير 
سبل إتاحة المعلومات. وتتضمن هذه الأدوات تسجيلات ببليوجرافية تعد بدائل 
للوثائق أو أوعية المعلومات. وتعمل أدوات الاسترجاع على تنظيم أكبر قدر ممكن 
من أوعية المعلومات التي يتم إنتاجها في جميع أنحاء العالم. ففي سنة 1892 كان كل 
سخ سول الت تلين Paul-otelt‏ وهنري لافونتين Henry Lafonteen‏ يحلمان بتنظيم 
مؤتمر دولي بهدف التخطيط لإنشاء نظام دولي للضبط الببليوجرافى Universal‏ 
(Bibliographic Control ( UBC‏ . وكانت معظم الجهود في تلك الفترة تتجه نحو 
بناء كشافات بالإنتاج الفكري في العلوم والتكنولوجيا. 

ويمكننا تخيل أهمية الكشافات أو قواعد البيانات الببليوجرافية إذا تصورنا مقدار 
الجهد والوقت والكّلفة التي يحتاج إليها الباحث الذي يريد الوصول إلى معلومة 
وردت في مقالة معينة أو يريد تجميع الإنتاج الفكري حول نقطة معينة يريد إجراء 
بحث حولها أو باحث يريد الوصول إلى خبر ورد في صحيفة.. أو غيره. بالطبع 
فإن هذه العملية دون وجود أدوات تيسر هذه العملية سوف تكون مستحيلة في 
كثير من الأحيان. 

بالتالي فإن أهمية الكشافات تأتي مما توفره من سبل وصول إلى المكونات 
والجزيئات الدقيقة لأوعية المعلومات من كتب ودوريات وغيرها بدرجة عالية من 
الدقة والسهولة وفى أقل وقت ممكن. ويمكن تلخيص وظائف الكشافات وقواعد 
البيانات بصفة oe‏ فيمايلي: 


بالنسية للمسغيدية. 


2 توفير مداخل وصول منهجية متعددة ومتنوعة لكل وحدة من وحدات 


المعلومات التي يتم تكشيفها. 
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3. توفير سبل وصول إضافية من خلال المداخل الإضافية والإحالات وطرق 
الببحت de pr‏ التي Mois legs‏ 


4 تجميع المصادر المتشابهة معاً في مكان واحد رغم وجودها بعد ة في 
الإنتاج الفكري» ما يساعد على الكشف عن العلاقات بين الموضوعات 
والمفاهيم والمصادر والمؤلفين والدوريات. 


5. تساعد الكشافات الموضوعية على التعرف إلى تطورات البحث في مجال 
موضوعي معين والعلاقات الجديدة بين الموضوعات الحديثة والقديمة. 

6. تساعد الكشافات على التعرف إلى المصطلحات المستخدمة في المجالات 
الموضوعية والتمييز بين المصطلحات المستخدمة وغير المستخدمة 
والعلاقات بين هذه المصطلحات» وتستمد الكشافات هذه الميزة من أدوات 
التكشيف وخاصة المكانز. 


> 3.1.2 نظام التكشيف 
Indexing System‏ 


تتم عملية التكشيف La,‏ لنظام محدد يعرف بنظام التكشيف Indexing System‏ 
وهو عبارة عن مجموعة من الوحدات التي تتكامل مع بعضها بعضاً بغرض إنتاج 
الكشافات أو قواعد البيانات. تمل هذه الوحدات مجموعة el gall‏ والإجراءات 
«البدوسة أو ااا اى عط وت عة ات هذا دا إلى م 
التجهيزات والأدوات اللازمة للتكشيف» والجانب البشري في عملية التكشيف 
المتمثل في مجموعة المكشفين. 


ويمكن القول إن نظام التكشيف يشتمل على المكونات الثلاثة CY‏ نظام معلومات 
وهي كالتالي: 
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> 3.1.2.1 المدخلات 


وتعد المجموعات والمقتنيات التي تمثل المحتوى الفكري الذي يسعى نظام 
التكشيف إلى تيسير آليات للوصول إليه أهم مدخلات أي نظام للتكشيف» كما 
تشتمل المدخلات أيضا على المكش فين والتجهيزات Le SU‏ لعملية AL ESS‏ 

ه المجموعات 

تشتمل على مجموعة الوثائق التي يتم تكشيفهاء ولابد أن تخضع عملية اختيار هذه 
المجموعات لعمليات فحص دقيقة» حيث إن نظم التكشيف عادة ما تتعامل مع أنواع 
معينة من الوثائق يطلق عليها الوحدات الصغيرة لأوعية المعلومات أو الميكروميديا 
8 ووالتى تشمل أوعية ole glee‏ مثل مقالات الدوريات» فصول الكتب» 
poi gall Lec!‏ اسه اهاور القنية E cAlel py‏ الخ ووس دهما تعمل معط لظم 
التكشيف في إطار محدد ودقيق» حيث يتم تجميع أوعية المعلومات التي تدخل في 
تلاق هذا الاطار مو اكات إظارا مرضوها أو شكلدا اوج انا ريو جد كلانه bis‏ 
من أنظمة التكشيف من حيث تغطية المجموعات هي كالتالي: 


1. نظم التكشيف التي تغطي نطاقات جغرافية (عالمية» أقليمية» محلية). 


2. نظم التكشيف التي تغطي قطاعات معرفية محددة ومجالات موضوعية 


3. نظم التكشيف التي تغطي أشكالاً محددة من الوثائق مثل الرسائل الجامعية» 
براءات الاختراع» الخرائط والوسائط المتعددة.. إلخ. 


ومن الجدير بالذكر أن نظم التكشيف العالمية تعتمد في الأصل على الجهود 
الا Cel‏ إلى Caer tage eg Sill GLI ened‏ إن ميتم ازام الذكري 
العالمى كان ومازال أحد الأفكار الرئيسة لمؤسسات المعلومات الدولية مثل الاتحاد 
الدو لى للمكتبات والمعلومات International Federation for Library Association‏ 
and Institutions TLA‏ إلا أنها وجدت أن تحقيق هذا الهدف أمر غير ممكن 


COW الفصل‎ 


وغير عملى فى الوقث cei‏ دون التعاون من جانب الحكومات المعلية. لذلك 
سعت الأمم المتحدة من خلال اليونسيست إلى إنشاء شبكات معلومات محلية في 
الدول النامية حتى يمكنها المشاركة في حصر وتجميع الإنتاج الفكري الوطني في 
المجالات العلمية المختلفة إلى جانب المشاركة في البرامج الدولية للمعلومات. 
ولعل أبرز نماذج نظم التكشيف العالمية حالياً تتمشل في أدوات البحث التالية: 
ISI WEB OF SCIENCE‏ 
SCOPUS‏ 


GOOGLE SCHOLAR 


وتتنافس هذه الأنظمة الثلاثة على تكشيف أكبر قدر من الإنتاج الفكري 
العالمي وتوفير أدوات لقياس جودة وكفاءة المخرجات العلمية للمؤسسات والدول 
والجامعات والأفراد والمصادر (الدوريات والمؤتمرات.. إلخ). 

o‏ التجهيزات 

تشمل التجهيزات كل ما يدخل في عملية التكشيف من أجهزة وأدوات ومعايير 
وقواعد وإرشادات واستمارات وغيرها من التجهيزات اللازمة لعملية التكشيف. وتشمل 
الأجهزة الداخلة في نظم التكشيف اليوم» حاسبات آلية بأنواعها المختلفة وبرامج 
متخصصة في عمليات بناء الكشافات واسترجاع المعلومات. وتجدر الإشارة هنا إلى 
أن هناك نظم تكشيف آلية يمكنها أن تؤدي عملية التكشيف الكامل للوثائق دون الحاجة 
إلى مكشفين أو لغات تكشيف» حيث إن هذه النظم dole‏ ما تعتمد على استخدام اللغة 
الطبيعية للوثائق. أما الأدوات الداخلة فى عملية التكشيف فتشمل لغات التكشيف» 
قواعد ciw gall‏ خطط التصنيف. اران PEE‏ سياسات التكشيف.. إلخ. 


وتعد القواعد والمعايير من أهم العناصر التي تضبط عملية التكشيف» فهناك 
مجموعة من المواصفات القياسية التي يتم تطبيقها في نظم التكشيف» ومن أمثلة هذه 
المواصفات: المواصفة الأمريكية التي صدرت عن الجمعية الأمريكية لعلم المعلومات 
American Society for Information Science: ASIS‏ ورقمها Z39.41968‏ والمواصفة 
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التى صدرت عن المعهد البريطانى للمعايير British Standards Institution‏ بالمملكة 
المتحدة» والتي تحمل رقم B93700_1976‏ وتحدد هذه المواصفات القياسية مفهوم 
التكشيف ومر جات غملية GAS‏ والإجراءات Lael‏ فى عمليات a BSI‏ 
ومكونات نظم التكشيف. 

Indexers المكشفون‎ © 

المكشف هو الشخص الذي يقوم بعملية التكشيف» ولابد أن تتوافر في هذا 
التكشيف على أكمل وجه. ولعل أهم المؤهلات التي يجب توافرها في المكشف 
هو التخصص الموضوعي أو الإلمام الدقيق بالمصطلحات والبناء المعرفي للمجال 
الموضوعي للوثائق التي يقوم بتكشيفهاء بمعنى أن يكون المكشف قادراً على التعامل 
مع المجال الموضوعي لنظام التكشيف. 

ويرى ماثيس ( 1998 (Mathes,‏ أن عمليات التكشيف التي يتم فيها تحديد 
واصفات البيانات يمكن أن تقوم بها إحدى الفئات التالية: 

Indexers المكشفون‎ © 

وغالباً ما تعتمد هذه الفئة على اللغات المضبوطة فى اختيار وانتقاء المصطلحات 
الكشفية» وعلى الرغم من تميزها بالجودة العالية والدقة في عمليات تحديد 
المصطلحات» إلا أن هذه العملية عادة ما تكون مكلفة وتستغرق وقتا وجهدا كبيرين؛ 


الأمر الذي يجعل من الصعب الاعتماد عليها بصورة كاملة مع النمو الهائل في 
المحتوى الذي حدث مع انتشار تطبيقات الإنترنت. 


1. المؤلفون Authors‏ المؤلف هو المنشئ الأصلي للوثائق المراد وصفها 
وتكشيفها. ولكن واصفات بيانات المفهرسين والمؤلفين تشترك في مشكلة 
أساسية وهي أن المستفيد النهائي من الوثيقة غير متصل بعملية التكشيف 
هذه أو منعزل عنها تماماً. ولذلك ظهر الاتجاه الثالث» ألا وهو التكشيف من 
خلال AEEA‏ 
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2. المستفيدون Users‏ ظهر هذا النوع من التكشيف وانتشر في أواخر عام 
0م من خلال مدونات الويب Web Blogs‏ حيث توفر هذه المدونات 
روابط Links‏ يتم عرضها جنباً إلى جنب مع تعليقات المستخدمين GD‏ 
مقترنة بها)» ويعتمد هذا النوع من التكشيف على اللغة الطبيعية. 


يرى البعض أنه من الصعب أن يقوم مكشف غير متخصص بتكشيف وثائق 
متخصصة في الفيزياء النووية» وفي الوقت الذي لا يعرف فيه هذا الشخص أي شيء 
عن علم الفيزياء وعلاقة هذا المجال الموضوعي بالمجالات الأخرى. كمايرى 
البعض أيضاً أنه من الصعب أن يقوم شخص بالتكشيف دون دراسة علمية لإجراءات 
وآليات التكشيف. 


وتوجد وجهتا نظر في هذه الناحية: الأولى ترى ضرورة أن يعمل المتخصصون 
الموضوعيون على تكشيف أوعية المعلومات في مجالاتهم الموضوعية المتخصصة 
بعد تدريبهم على أساليب ومبادئ التكشيف. وهذا هو النموذج الأكثر تطبيقا في 
معظم أنظمة التكشيف المتخصصة. وقد أوضح محمد )1999( أن 80 / من المكشوف 
في مراكز المعلومات القطاعية التي تتولى بناء قواعد البيانات الببليوجرافية المصرية 
من التخصصين موضوعيا الي تم igen‏ غلى اساي التكشيف» 


أما الاتجاه الثاني فيرى أنه من الممكن لأخصائيي المعلومات خريجي أقسام 
المكتبات والمعلومات» أن يقوموا بعمليات التكشيف إذا ما أحسنوا الاستفادة من 
الأدوات المتاحة لديهم من قواميس متخصصة ولغات تكشيف وخطط تصنيف 
وغيرها من الأدوات التي تمكنهم من التعرف إلى علاقة الموضوعات ببعضها بعضاء 
والمصطلحات المتخصصة في المجالات الموضوعية التي يعملون على تكشيفها. 
والحقيقة أن لكل وجهة نظر ومزاياها وعيوبهاء وإن كان من الأفضل المزج بين 
الاتجاهين في عمليات التكشيف بغرض الاستفادة من الخبرات الموضوعية إلى 
جانب الخبرات المهنية» حيث إن عملية التكشيف ليست مجرد مجال علمي يمكن 
ممارسته بسهولة وإنما هى مهنة بها الكثير من الجوانب العلمية إلى جانب العمليات 
الفنية التي تحتاج إلى ارات خاصة تتعلق باستخدام أدوات ومعايير الفهرسة 
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والتصنيف والتكشيف» إضافة إلى دراسة احتياجات المستفيدين من النظام سواء 
الحالية أو المتوقعة» كما تتطلب قدراً كبيراً من الثقافة والفهم للعلاقات المتشابكة 
بين مجالات المعرفة البشرية. 

وإلى جانب المؤهلات التي ينبغي أن تتوافر في المكشف لابد أن يتمتع المكشف 
بمجموعة من المهارات تشمل القدرات اللغوية وإمكانيات التعامل مع الحاسب 
الآلي وشبكات المعلومات التي تمكنه من نقل وتبادل التسجيلات الببليوجرافية مع 
النظم الأخرى» وإدارة النظام والتعامل مع قضايا المستفيدين المتعلقة بالدعم الفني 


> 3.1.2.2 عمليات التحليل والتكشيف 

الجانب الثاني من جوانب نظام التكشيف يتمثل في مجموعة الإجراءات التي تتم 
مخ Lge‏ ممل ALS!‏ تفسهاوتشقيز علن طون اسن ها 

٠‏ التحليل المفاهيمي 

ه٠‏ الترجمة 


وستتم مناقشة إجراءات التحليل والتكشيف بالتفصيل لاحقاً. 


> 3.1.2.3 المخرجات 


تعد الكشافات وقواعد البيانات ونشرات الاستخلاص أهم مخرجات أي 
نظام تكشيف واسترجاع معلومات» هذا إلى جانب ما تتضمنه هذه النظم من 
معالجة لاستفسارات المستفيدين من أجل إجراء البحث عن الوثائق المناسبة 
لهذه الاستفسارات. 


ويشتمل نظام التكشيف على العديد من النظم الفرعية الداخلة في تكوينه» والتي 
تتفاعل معاً في منظومة واحدة من أجل تلبية احتياجات المستفيدين. ويتيح نظام 
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التكشيف طرقاً متنوعة لخزن واسترجاع المعلومات التي يمكن من خلالها تلبية 
احتياجات المستفيدين من النظام بغرض تيسير سبل بحث واسترجاع المعلومات. 
> 3.1.3 التكشيف ونظم تمثيل واسترجاع المعلومات 


أشار لانكستر إلى أن نظام استرجاع العلومات يتكون من 6 نظم فرعية هي: 
(لانكستر» 1997( 

1. النظام الفرعي لاختيار الوثائق 

2. النظام الفرعي للتكشيف والتحليل 

3. النظام الفرعي للغة التكشيف 

4. النظام الفرعي للبحث 

6. النظام الفرعي الخاص بالمضاهاة 

يقع النظام الفرعي للتكشيف في محطتين أساسيتين من محطات العمل في نظم 
تمثيل واسترجاع المعلومات هما: 

النظام الفرعي للتكشيف والتحليل. 

- النظام الفرعي للغة التكشيف. 

بالتالي يتضح أن التكشيف يشكل محور نظام تمثيل واسترجاع المعلومات, OV‏ 
هذا النظام يعتمد بشكل كبير على المضاهاة بين ناتج عملية التكشيف المتمثل في 
المصطلحات التى تعبر عن احتياجات المستفيدين» وعملية تحليل الاستفسارات 
Utes‏ فى اسر اتيج البجت العى تطابق فى تكويههنا عملية تال وتعشيفت 
Ll betsy‏ على اا ت اا teal‏ العف ني رهما تلل 
المفاهيم» الترجمة» كما هو موضح في الشكل (2.3). 
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> 3.1.4 العلاقة بين التكشيف والاستخلاص والبحث 


يوجد تداخل كبير بين هذه العمليات الثلاث (التكشيف والاستخلاص والبحث)» 
حيث لا يمكن فصلها في أي نظام لخزن واسترجاع المعلومات» بل إن كفاءة أي نظام 
لخزن واسترجاع المعلومات يعتمد على جودة هذه العمليات الثلاث. ويعد التكشيف 
والاستخلاص وجهين لعملة واحدة» فالتكشيف الجيد قد يستخدم في بناء المستخلصات» 
كما أن المستخلص الجيد يمكن الاعتماد عليه في تكشيف الوثائق. كما أن التكشيف 
والاستخلاص ليس لهما أي أهمية إذا لم يستخدما من أجل بحث الإنتاج الفكري وإتاحة 
سبل الوصول إلى أوعية المعلومات. وعلى العكس من ذلك فإن البحث دون توافر 
مؤشرات لمحتوى أوعية المعلومات (تكشيف واستخلاص) يجعل المستفيد مضطراً إلى 
أن يفحص كل وثيقة على حدة» وهو أمر غير منطقي وغير عملي في الوقت نفسه. 

Les‏ رضا المستفيد User Satisfaction‏ الجانب الأساسي الذي يمكن من خلاله تقييم 
مدى قوة أو ضعف العلاقة بين هذه العناصر الثلاثة. فالمستفيد عادة مايهتم بصفة عامة 
بالوقت المستغرق في الوصول إلى المعلومات. ولا شك أن عمليات التكشيف والاستخلاص 
تساعد على الوصول إلى مصادر المعلومات في أقصر وقت ممكن» حيث إنها تقدم بدائل 
للوثائق أكثر إيجازا وتوفر إرشادات للوثائق الصالحة دون الحاجة إلى الرجوع إلى الوثائق 
الكاملة لفصل مجموعة الوثائق الصالحة عن مجموعة الوثائق غير الصالحة. كما يهتم 
المستفيد أيضا بدقة النتائج المسترجعة» والتي تمثشل نقطة الربط الحقيقية بين عمليات 
التكشيف والاستخلاصء وعمليات البحث في نظم استرجاع المعلومات. 


يعتمد تحديد نوع عملية التكشيف على الطريقة التي تستخدم في الحصول على 
المصطلحات الكشفية» فإذا كانت المصطلحات يتم اشتقاقها من النص الأصلي يطلق 
عليها التكشيف الاشتقاقي Derivative Indexing‏ أما إذا كانت المصطلحات يتم تعيينها 

ثيقة فيطلق عليه التكشيف بالتعيين Assingnment Indexing‏ ويستخدم مصطلح 
التكشيف الاشتقاقى كمرادف لتكشيف الكلمات المفتاحية:» نظراً OY‏ المصطلحات 
الكشفية يقم اختيارها من الكلمات الواردة بالنص مباشرة؛ ولا يتم الاعتماد على أي 
أداة لضبط المصطلحات. وعلى الجانب الآخرء فإن التكشيف بالتعيين يعتمد على 
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اشتقاق أو تعيين المصطلحات الدالة على مفاهيم من خلال أداة لضبط المصطلحات 
مثل المكانز أو قوائم رؤوس الموضوعات. وعادة ما يطلق على المصطلحات التي 
يتم تعيينها باستخدام المصطلحات المضبوطة الواصفات Descriptons‏ حتى لو لم يتم 
تعيين تلك المصطلحات من مكنز مصطلحات. فإذا كان المفهوم الذي يتم تكشيفه 
جديدا أو اسم علم مثل بيت المقدس أو المسجد الأقصى ولا يجد واصفه مطابقة 
له بالمكنز أو قائمة المصطلحات المضبوطة» فإنه يمكن وضع محدد Identifier‏ في 
عملية التكشيف بالتعيين. بمعنى آخر تحديد مصطلح جديد للدلالة على ذلك المفهوم 
أو اسم العلم وإضافته لأداة ضبط المصطلحات وهو ما يطلق عليه السند الأدبي في 


ويتم أحياناً الإشارة إلى التكشيف بالاشتقاق والذي يعتمد على أي أداة لضبط 
المصطلحات التكشيف الحر Free Indexing (Fugmann,1993)‏ وتجدر الإشارة إلى 
أنه يوجد جدل دائر منذ بدايات النصف الثاني من القرن العشرين حول استخدام 
التكشيف بالتعيين أو التكشيف بالاشتقاق ومازال هذا الجدل دائرا بين المتخصصين 
ويمكن القول بصفة عامة إن انتشار المعلومات الرقمية أدى إلى انخفاض ملحوظ في 
le pa Sh Mac Si UE Madly ene hile‏ ر جمالك ارال 
تتعلق بالكم والكيف (جودة عملية التكشيف). 


> 3.1.4.1 التكشيف الآلي والأتوماتيكي 


Automated and Automatic Indexing 


يتم تصنيف كل الأنشطة التي تتضمنها عملية التكشيف إلى نوعين أساسيين هما: 
فكري Intellectual‏ الي Automated‏ وقد تم توضيح الجزء الفكر ي في عملية 
التكشيف الذي يتضمن التحليل المفاهيمي والترجمة في الجزء السابق. 

أما الجزء SV‏ في عملية التكشيف فيتضمن الترتيب الهجائي وتكوين مداخل 
الكشاف» فبينما يتم إجراء الجزء الفكري من عملية التكشيف بالاعتماد على الجهود 
البشرية في معظم الأحيان» ومع التطورات المستمرة في بحوث الذكاء الاصطناعي 
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أصبح من الممكن إجراء عملية التكشيف بالاعتماد على الحاسبات الآلية بصورة 
فعالة. وتعتمد نظم التكشيف Autoamted Indexing SV)‏ على توظيف الحاسبات 
في إجراء كل من الجوانب الفكرية والميكانيكية في عملية التكشيف. ويطلق على 
عملية توظيف الحاسبات الآلية في إجراء الجوانب الآلية في التكشيف وقيام 
البشر بأداء الجوانب الفكرية مصطلح التكشيف Automatic Indexing UYL‏ من 
ثم فالفرق بين التكشيف الآلي والتكشيف بالآلةء أن الأول يتم كلياً بالاعتماد على 


وأحياناً يُطلق على التكشيف الآلي مصطلح التكشيف الميكانيكي» حيث يُعد 
التكشيف الاي أحد الحلول المبتكرة لمشكلات عدم الاطراد Inconsistemcy‏ 
والكلفة المرتفعة المرتبطة بالتكشيف اليدوي. مع ذلك فإن نقطة الضعف 
الجوهرية في التكشيف الآلي تتمثل في أنه يتعامل مع الجانب الفكري 
في عملية التكشيف بكفاءة أقل بكثير من إمكانيات أخصائيي المعلومات 
المحترفين. ويرجع السبب في ذلك إلى أن الحاسبات لا تستطيع التفكير ولا 
تملك القدرات التحليلية للبشر. وفي المقابل» يحرر التكشيف الآلي المكشفين 
المحترفين من بعض المهام التكشيفية التكرارية المملة» من ثم يمكنهم التركيز 
على العمليات الفكرية للتكشيف. وتزداد قيمة التكشيف الآلي بصورة أكبر مع 
تضخم المعلومات المتاحة فى البيئة الرقمية والتي تنمو بمعدلات كبيرة تتجاوز 
ملايين الجيجابايت التي تنتج يومياً في البيئة الرقمية. ويعتمد التكشيف الآلي 
على العديد من الأساليب التي تم تطبيقها بالاعتماد على خوارزميات تردد 
المصطلحات «Term Frequency‏ تقارب المصطلحات «Keyword Poroximity‏ 
مواضع المصطلحات «Term Locations‏ التكشيف الاحتمالي Probability‏ 
Indexing‏ واللغویات Linguistics‏ وقد تم توظيف المصطلحات المضبوطة 
في بعض إجراءات التكشيف الآلي» ولكنها لم تحقق النجاح المطلوب وأثرت 
سلباً في الطبيعة الحاسوبية لذلك النشاط. 
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> 3.1.4.2 التكشيف في بيئة الروابط الفائقة 


Indexing in the hyper text Environment 


ينمو حجم المعلومات المتاحة في بيئة الروابط الفائقة بسرعة كبيرة» وترمز تلك 
البيئة إلى الشبكة العنكبوتية العالمية أو شبكة الويب» وتعتمد المعلومات المتاحة 
على الويب في تمثيلها لمصطلحات الكشاف على استخدام الروابط الفائقة» والتي 
تجسد كلاً من مصطلحات الكشاف وآلية تحديد موقع المعلومات. 

وبمعنى آخر يتم توظيف الروابط الفائقة على Lgl‏ مصطلحات كشفية Indexing‏ 
Terms‏ حيث تقود تلك الروابط الفائقة المستفيد بسلامة إلى المواقع التي تشير إليها 
مصطلحات الكشاف. 


وبالمقارنة مع غيرها من بيئات التكشيف فإن هذه البيئة تتميز بالملامح التالية: 


أولاً: مصطلحات الكشاف في بيئة الروابط الفائقة تمئل جزءاً أصيلاً من الوثائق 
التي يتم تكشيفها وليست DOLS‏ مستقلة خارج النص الذي يتم تكشيفه. 


ee eee ie‏ ق معا في وحدة واحدة 
os Va,‏ فصلها في قوائم مستقلة. 

ثالثاً: من الصعب التعرف في تلك البيئة إلى البنية الهرمية للموضوعات والمفاهيم 
الفرعية وعلاقاتها ببعضها بعضاًء كما هو الحال في البيئة التقليدية للتكشيف. 


bly‏ : يمكن فقط في تلك البيئة استخدام الروابط الفائقة التي تحتوي على 
مؤشرات محتوى Content Base ID Link‏ كمصطلحات کشاف» ومن ثم y‏ 

يتم توظيف الروابط التنظيمية Organizational Links‏ مثل الصفحة التاليةء 
السابقة» أعلى الصفحة في عملية التكشيف )1995 (Chu & Rosenthal,‏ 


(res‏ : بهتم القائمون على إعداد الوثائق التي يحم إتاحتها في بيئة الربط الفائق 
بدور عملية التكشيف التي تتم أحياناً بالتزامن مع عملية بناء الوثيقة å‏ 
وأحياناً قبلها. وكنيجة لذلك فإن مصطلحات مغل pail)‏ هنا) cally‏ نادراً 
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البيئة على أنها أسماء لروابط فائقة من ثم يتم تكشيفها. 
سادساً: تقلل تلك البيئة التضارب الذي يحدث بين الوثيقة الأصلية والمصطلحات 
الكشفية؛ حيث يقرر منتج الوثيقة عند بنائها من البداية ما هي المصطلحات 
التي تستخدم في وصف الروابط الفائقة من ثم يتم تكشيفهاء أما الوثائق 
التقليدية فيتم كتابتها أولا ثم يقوم المكشف بتحليل الوثيقة واختيار 
المصطلحات الكشفية بغرض تمثيلها. 
وبناءً على الملامح الخاصة بعملية التكشيف في بيئة الروابط الفائقة» يجب استخدام 
الطرق الملائمة فى تكشيف تلك الوثائق. فعلى سبيل المثال يجب اختيار أسماء الروابط 
بعناية عند إعداد وثيقة يتم نشرها عبر بيئة الروابط الفائقة» لذلك ظهر مجال مهم في BAS‏ 
تلك البيئة يطلق عليه تحسين أداء محر كات البحث Search Engines Optimization‏ 


> 3.2 التوسيم الاجتماعي 
Social Tagging‏ 


ظهر التوسيم الاجتماعي مع بدايات الجيل الثاني للويب الذي تحول فيه 
المستفيد في بيئة العنكبوتية من مُستقبل للخدمة إلى متفاعل مع الشكبة» ثم تطور 
بصورة أكبر مع التوسع في بيئة الويب الدلالي التي تركز على الربط بين الخدمات 
وإبراز المعاني والدلالات التي تحملها الصفحات. ويتم من خلال أدوات التوسيم 
الاجتماعي تجميع كلمات مفتاحية من المستفيدين من مصادر الويب على منصة 
تستخدم في وصف الكيانات والمفاهيم والأفكار التي تحملها تلك المصادر. 
ومن المعروف أنه توجد أنماط متعددة للتوسيم استخدمت في المكتبات منذ القدم» 
منها استخدام الملصقات Labels‏ والتي تطورت إلى الأكواد العمودية Barcode‏ أو 
محددات الهوية بترددات الرديو”" RFID)‏ ومع تطور أساليب التواصل الاجتماعي ظهر 





RFID: Radio-Frequency [Dentification (1) 
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التوسيم الاجتماعي ASS‏ جديدة مختلفة عن تلك الأشكال التقليدية التي استخدمت في 
تحديد هوية الوثائق. وقد ظهر التوسيم الاجتماعي في بداية عام 2003 كوسيلة يستخدمها 
المستفيدون فى إثراء المصطلحات الدالة على الوثاتق المتاحة على الإنترنت» فيما عرف 
بالتكشيف الاجتماعي Social Indexing‏ بالتالي فالتوسيم الاجتماعي يعد أحد الأنشطة 
التي يمارس فيها المستفيد النهائي عملية التكشيف بالكلمات المفتاحية» وتتم عملية 
التكشيف هنا بعد إتاحة الوثيقة للمستفيد الذي يقوم بتكشيفها أو تتم بطريقة آلية من 
خلال نظام استرجاع المعلومات الذي يُخزن نتائج تفاعل المستفيد مع النظام. Ho:‏ 
فإن التوسيم الاجتماعي ليس مساوياً تماما أو مطابقاً للتكشيف بالكلمات المفتاحية» نظراً 
OY‏ المستفيد عندما يقوم بعملية التوسيم يختار أسماء أو عبارات تستخدم للدلالة على 
الوثيقة أو لوسم (تسمية) الوثيقة وليس تكشيفها. 

ويعد التوسيم الاجتماعي أحد أنماط حركة الجيل الثاني للويب التي تسعى إلى 
توسيع نطاق مشاركة المستفيد في بث وإتاحة المعلومات مثل المدونات Blogging‏ 
والويكيبيديا.. الخ. ويعد موقع فيلكر Flicker‏ لمشاركة الصور من أقدم أنظمة التوسيم» 
كما تعند موقع 105 الذي تغير عنوانه إلى 973 في عام 7 أيضا 
من أقدم أنواع هذه النوعية من المواقع. ففي مثل هذه النوعية من المواقع يستطيع 
Opti nell‏ التعليق على الوثاقق النضيية أو الوسائط المتحدوة Lelia‏ غلى الويب 
بكلمات أو عبارات من اختيارهم يمكن أن تستخدم في بحث واسترجاع تلك الوثائق. 

وتوجد العديد من الأدوات التي تتيح للمستفيد إضافة كلمات مفتاحية للوثائق التي 
تكشفها أدوات بحث والاسترجاع على الإنترنت» لعل أبرزها محرك البحث Pubmed‏ والذي 
يعد أحد أهم وأبرز قواعد البيانات الطبية والذي يصدر عن المكتبة القومية الطبية ويهتم 
بتمثيل وتكشيف مصادر المعلومات الطبية من درويات وأعمال مؤتمرات.. إلخ» حيث يتيح 
للمستفيد التوسيم الاجتماعي للوثائق وينتج عنها سحابة الواسمات ‘Tag Cloud‏ 

على الرغم من أن التوسيم الاجتماعي قد فتح مجالاً جديداً في تمثيل واسترجاع 
المعلومات يتيح للمستفيد إمكانيات المشاركة الفعالة في عمليات التمثيلء فإنه 
يعاني من نفس المشكلات التي تظهر في التكشيف الآلي مثل القصور الذي يبرز في 
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عمليات التكشيف بالكلمات المفتاحية ومنها المترادفات والمشترك اللفظي.. الخ 


وعلى الرغم من ذلك فإن التوسيم الاجتماعي يُعد نمطا متميزاً وأحد البدائل 
المهمة التي أتاحتها بيئة الشبكة العنكبوتية لتمثيل المعلومات وتيسير استرجاعهاء 
نظراً OY‏ الواسمات التي يضعها المستفيدون» إضافة إلى مزاياها الأخرى» تتيح نقاط 
إتاحة إضافية يتم اختيارها من جانب المستفيد النهائي كمصطلحات استفسار لتيسير 
الوصول إلى المعلومات» وتمكن المستفيدين الآخرين من التوسع في البحث وفهم 
التتائج المسترجعة من خلال الواسمات المستخدمة. 


وقد ساعد التوسيم الاجتماعي كأحد الأنماط الجديدة في تمثيل المعلومات على 
ابتكار أساليب el SY‏ مجال استر جاع المعلومات Smith,2008)‏ 


ويعد التقسيم الجماعى 15 أحد أبرز تلك الابتكارات» ويشير مصطلح 
التقسيم الجماعي» الذي سکه لأول مرة العالم توماس فاندر Thomas Vander‏ في 
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نموذج لسحابة كلمات من موقع world net‏ 
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عام 4 إلى مكونين ee ee‏ هما المجتمع Folks‏ والتقسيم Taxonomy‏ وبعبارة 
أخرى فإن التصنيف الاجتماعي هو عبارة عن نطام تصنيف تم بناؤه باستخدام 
واسمات Tags‏ أنشأها المجتمع أو المستفيدون النهائيون» وسوف يتم مناقشة التصنيف 
الاجتماعي والوسم الاجتماعي فيما يلي. 

وعادة مايأخذ الوسم الاجتماعي شكل سحابة الواسمات Tags Cloud‏ والتي 
تعد تجميعا مرئيا للواسمات Visual Alggregation of Tags‏ يتم عرضها في مواقع 
الوسم Tagging sites‏ بالاعتماد على تردد الوسم Tagged Frequencies‏ وتساعد 
سحابة الواسمات المستفيدين على اختيار المصطلحات الملائمة سواء في عملية 
الوسم أو الاسترجاع. 


> 3.3 التقسيم إلى فئات 
Categorization‏ 
de‏ التقسيم إلى فئات على تمثيل المعلومات بصورة هرمية متتالية في البناء 
توضح الأقسام والأجزاء التي ينتمي إليها كل قسم. وينقسم هذا النوع من أنواع تمثيل 
المعلومات إلى نمطين أساسيين» سيتم منقاشتهما هنا بالتفصيل في القسم التالي. 


> 3.3.1 أنماط التقسيم إلى فئات 
Types of Categoration‏ 


يعتمد النمط التقليدي للتقسيم إلى فئات على استخدام نظم تصنيف المعرفة التقليدية مثل 
خطة تصنيف ديوي العشري» مكتبة الكونجرس. ويطلق على هذا النمط من أنماط التقسيم 
إلى فئات عالميا مصطلح التصنيف Classification‏ والذي يتم تطبيقه بصفة عامة على 
مقتنيات المكتبات وخدمات المعلومات» ويعتمد التصنيف على استخدام أساليب متنوعة 
لترميز المعلومات تشمل الأرقام والحروف أو مزيجا منهما إلى جانب العلامات الخاصة. 
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الويب» اتخذت المعلومات التي يتم بثها من خلال هذه البيئة مجموعة من الملامح 
الجديدة تشمل المعلومات العابرة التي يتم إزالتها أو تغييرها وتعديلها بسرعة» ونظرا 
لأن المعلومات المتاحة مختلفة فى مدى جودتها (حيث إنه لا يوجد أي رقابة عليها) 
إلى انيع كاب ا OLS ALL‏ اكد اولك Gaal‏ ا 
المعلومات لتقسيم هذا الكم الهائل سريع التغيير والمتنوع في مدى جودته يبدو 
أمرا مكلفا للغاية» وغير ملائم لطبيعة تلك المعلومات. ومن هنا ظهرت الحاجة إلى 
نظام جديد لتقسيم المعلومات المتاحة على الإنترنت إلى فئات فظهر تصنيف الويب 
Web Taxonomy‏ والذي يعتمد على استخدام ole‏ واسعة لتقسيم مواقع وصفحات 
الويب. ويعد دليل البحث Yahoo‏ الآداة الرائدة في هذا المجال» والذي أصبح فيما 
بعد أحد أبرز نماذج تمثيل المعلومات على الويب. 


وتعتمد نظم تصنيف الويب على تقسيم المواقع والصفحات إلى فئات واسعة ثم 
أقسام أكثر تخصيصاً مع وضع روابط فائقة مباشرة تغني عن استخدام نظم الترميز 
الرقمى أو الهجائى والتى تعكس إطار البناء الهرمى والعلاقات بين الفئات. 


> 3.3.2 مبادئ التقسيم إلى فئات 


عند استخدام التقسيم إلى فئات لتمثيل المعلومات يتم التعبير عن الوثيقة بفئة 
واحدة وأحياناً اثتتان وذلك في حالة المواد التي تعالج موضوعات متداخلة. وبمعنى 
آخر يتم تصنيف كل وثيقة تحت فئة واحدة فقط من الفئات المحدده بنظام التقسيم. 

وتتطلب هذه الممارسة أن تكون الفئات المختارة بنظام التقسيم إلى فئات تتميز 
بمايلي: 

Exhaustive الشمولية‎ ° 


ء الحصرية التبادلية Mutually Exclusive‏ 


من ثم يمكن القول إن نظام التقسيم إلى فئات لا بد أن يشتمل على كل الفئات 
المحتملة لتمثيل المعلومات بدقة. وفى الوقت نفسه» يجب أن تكون هذه الفئات حصرية 
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بشكل تبادلي وواضح (بمعنى أنه يمكن تكرارها). فإذا كان النظام لا بحة يحقق الملمح 
الأول؛ فإن بعض المعلومات سيكون من الصعب تمثيلها وفقاً للففات المتاحة بنظام 
التقسيم. وإذا لم يتحقق الملمح الثاني يكون من الممكن استخدام أكثر من فئة واحدة 
لتمثيل الموضوع نفسه في نه نفس الوثيقة ثيقة. كما أن عدم توافر أي منهما أو كليهما يضعف 
تماسك نظام التقسيم إلى فئات. ومن المبادئ المهمة أيضاً التي يجب أن تتوافر في أي 
نظام للتقسيم إلى فئات: المرونة وسهولة الاستخدام ولكنها ليست مبادئ أساسية. 


وقد سعت معظم أدوات الوصول إلى المعلومات على الويب إلى بناء أدلة 
بحث تعتمد على تقسيم الويب إلى فقات مع بدايات ظهور محركات البحث في 
عام 4 ومنها دليل البحث ياهو Yahoo.com‏ ودليل البحث جوجل. وقد قسم 
كل منهما الويب إلى 14 فئة موضوعية أساسية وتحت كل فئة رئيسة مجموعة من 
الفئئات الموضوعية الفرعية التي وصلت إلى أكثر من 90 فئة فرعية. وتجدر الإشارة 
إلى أن أدلة ياهو وجوجل تم إغلاقها منذ عام 2014. ولعل أبرز الأمثلة للتقسيم إلى 
فئات في قواعد البيانات هو إمكانيات التصفح التي تتيحها الكثير من قواعد البيانات 
الدولية لعل أبرزها قاعدتا بيانات Scopus» Web of Science‏ ويمكن مراجعة الفئات 
الموضوعية لقاعدة بيانات Scopus‏ من خلال مراجعة الموقع الخاص بتقرير Scimago‏ 
المتاح على الرابط التالي : -https://www.scimagojr.com/journalrank.php‏ 


3.3.3 العلاقة التي تجمع بين الاتجاهين 


تتشابه الطريقتان المستخدمتان في التقسيم إلى فئات في العديد من الملامح» لعل 
أبرزها هو تمثيل المعلومات في صورة فئات لها بنية هرمية تعتمد على قوة العلاقة 
بين مصدر المعلومة والفئة التي ينتمي إليهاء كما أن الفئات عادة ما تلتزم تتابع 
خطى في عمليات البناء والوصول إلى المعلومات. ونظرا لعدم قدرة نظم التصنيف 
التقليدية على متابعة التطورات المتسارعة في حجم الويب وطبيعتها الترابطية» ظهرت 
نظم تصنيف الويب التي أطلق عليها أدلة البحث في البدايةء ثم تطورت تلك النظم 
إلى أدوات تعتمد على أساليب التنقيب عن البيانات Data Mining‏ وعناقيد الويب 
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Web Clustering‏ والتي تستخدم أساليب التحليل الدلالي للمفاهيم بالاعتماد على 
نظم تصنيف الويب أو التوكسونومي. مع ذلك توجد بعض الاختلافات الأساسية 
بين الاتجاهين» وتعتمد هذه الاختلافات على طبيعة الإطار المستخدم لأغراض 
تمثيل المعلومات. فقد تم استخدام التصنيف مع أنواع متعددة ومتنوعة من مصادر 
المعلومات» وأثبت Ti‏ كأحد GILT‏ تمل المعلومات: Le‏ تصييف الريب فعادة 
ما ينظر إليه على أنه طريقة سريعة ومرنة في تمثيل المعلومات. ومع ازدياد حجم 
المعلومات الثابتة التي أصبحت ذات أهمية كبيرة بالنسبة إلى المستفيدين من الويب» 
بدأ استخدام التصنيف التقليدي في تقسيم المعلومات المتشابكة على العنكبوتية» 
رفي a‏ ننس تحسنت التسائج المستخدمة في بداء تتم تصيف الوبي فين خلال 
تطبيق نماذج معمارية الويب Web Archetituctre‏ والتى نشأت أساسا اعتمادا على 
نظم التصنيف التقليدية مشل التمثيل الهرمي. 


علاوة على ذلك» فإن تقسيم النصوص إلى فئات» من وجهة نظر تقنيات الميكنة: 
ينطبق بصورة أكبر على تصنيف الويب أكثر من التصنيف التقليدي» حيث إن حجم 
المعلومات الرقمية يتزايد بسرعة كبيرة. فمع اهتمام الباحثين بالتصنيف الآلي 
Automatic Classification‏ حدث تقدم كبير في آليات التقسيم إلى فئات. إلا أنه 
توجد حاجة ماسة إلى توظيف العقول البشرية للخروج بنظم تصنيف دقيقة» والتي 
يتعذر تحقيقها مع استخدام خوارزميات تعتمد على الآلات فقط. بمعنى أن التدخل 
البشري عنصر مهم في تلك العملية حتى الآن. 


Summarization التلخيص‎ 3.3.4 > 


التلخيص هو تعبير موجز ومختصر للمحتوى المعلوماتي» بحيث يصف ذلك 
الحقائق والأفكار الأساسية التي تتضمنها الوثيقة. وتوجد أربع طرق أساسية في 
التخليص في البيئة الرقمية هي المستخلصات والملخصات والاشتقاقات والتلخيص 
الوافي للموقع» ولكل طريقة من هذه الطرق أدواتها وآلياتها. وسيتم فيمايلي 
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Abstracts المستخلصات‎ 3.3.4.1 > 


المستخلص عبارة عن تمثيل مركز ودقيق لمحتوى الوثيقة بالاغتماد على أسلوب 
إعداد المستخلصات والذي يتم تنفيذه من خلال أخصائيين مؤهلين لأداء تلك 
العملية» ذلك على الرغم من محاولة تطوير أساليب آلية في الماضي )1958 (Luhn,‏ 
ويجب أن يتم كتابة المستخلص بأسلوب يشبه بدرجة كبيرة الوثيقة الأصلية» على 
الرغم من صعوبة تحقيق هذا المبدأً أثناء عملية التلخيص» بسبب الحاجة إلى حذف 
كثبرهن المعلومات آثناةعملية إعداد المستخلصء ما gage‏ إلى قصور فى تمثيل 
المستخلص للوثيقة. ويتم تقسيم المستخلصات إلى ثلاثة أنواع هي: 

Informative Abstracts المستخلصات الإعلامية‎ © 

Indicative Abstracts المستخلصات الدلالية‎ ° 


ء المستخلصات النقدية Critical Abstracts‏ 


المستخلصات الإعلامية تحتوي على المعلومات الأساسية التى تعالجها الوثيقة الأصلية» 


لذلك من الممكن أن تستخدم كبديل للوثيقة في بعض الأحيان. وبناء على المستخلص 
الإعلامي يمكن أن يقرر الباحث ما إذا كان في حاجة إلى قراءة الوثيقة الأصلية أم لا 

أما المستخلصات الدلالية فهي وصف موجز للمحتوى المعرفي الذي تتضمنه 
S p| Aboutness‏ ثيقة» مع استبعاد التفاصيل مثل المنهج والنتائج . لذلك لا يمكن 
معاملة المستخلصات الدلالية على أنها بديل للوثيقة الأصلية» حيث يحتاج 


الباحث إلى الرجوع إلى الوثيقة الأصلية للحصول على التفاصيل التي لا تتضمنها 
السععامات الدلانية. 


المستخلصات النقدية لا تقتصر فقط على تمثيل المعلومات التي تشتمل Lede‏ 
eon ran yy‏ الح pel‏ 
وقدبدأت العديد من vel‏ بيانات الأدلة والبراهين Evidance Based Databases‏ 
الاععماد le LIES‏ هذه Lee ll‏ من السعخاصات من غلال ol pact‏ بقوسون TLS‏ 
مراجعات نقدية عن الأبحاث في صورة ملخصات وانتقاء أفضل النتائج التي 
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توصلت إليها الدراسات ووضعها فى قواعد SUL‏ جديدة يطلق Lede‏ قواعد بيانات 
lea‏ اعدو TE‏ نيا على E EE E‏ م ات 
والتعليق التقدي على البحوث ومقارنتها بنتائج المختبرات. ٠‏ 

ويختلف هذا النمط من أنماط الاستخلاص عن المغزى الأساسي من 
l ye‏ يجيب ايكون Ler‏ ومجردا من أي تقسيرات إلا تادرا 
أو من جانب فئات تمتلك القدرة على الحكم النقدي في المجالات العلمية. 
لذلك Y‏ يقوم أخصائي المعلومات بكتابة مستخلص نقدي بصفة عامة إلا إذا 
طلب منه ذلك. 


وكماذكر سابقاًء قام العديد من الباحثين بمحاولات لإنتاج برامج للاستخلاص 
الآلي؛ إلا أن المنتج النهائي لتلك المحاولات لا يختلف كثيراً عن التلخيص الآلي أو 
الاشتقاق SY‏ أكثر من كونها استخلاصاً Auto Abstract LI‏ حيث تشتمل على 
مجموعة من الجمل المفتاحية التي يتم اشتقاقها من الوثيقة الأصلية. 


Summaries التلخيص‎ 3.3.4.2 > 


هو عبارة عن إعادة صياغة لمجموعة النقاط الرئيسة التي تعالجها الوثيقة 
الأصلية» ويتم وضع الملخص إما في بداية الوثيقة أو في نهايتها. وعلى الرغم من 
التشابه الكبير بين الملخص والوثيقة الأصلية إلا أنه لايغنى عن الوثيقة الأصلية» 
عت E‏ مسد هله الترعية من اللات أن الشارئ سوق يعانم EE‏ 
الكاملةء OY‏ هذا النمط عادة ما يفتقر إلى العناصر الأساسية اللازمة لفهم الوثيقة 
مثل الأجزاء الخاصة بالمعلومات المتعلقة والخلفيات المعرفية للموضوع والمنهج 
وآليات الوصول إلى النتائج.. الخ -Rowley,1994)‏ 


وقدتم في السنوات الأخيرة تطوير العديد من خوارزميات التلخيص الآلي 
للنصوص وخاصة النصوص الرقمية (2007, Jones‏ ويعد التلخيص SV‏ أحد 
المجالات النشطة التي يهتم بها الباحثون في مجالات الذكاء الاصطناعي ومعالجة 
اللغة الطبيعية. وقد أطلق بعض الباحثين على المخرجات التي تنتجها خوارزمياتهم 
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مصطلح مستخلصات Abstracts‏ إلا أنها لا تعد ملخصات آلية للوثاقق الأصليةء 
ومع ذلك فإن أنظمة الذكاء الاصطناعي هي الوحيدة القادرة على تحويل حلم 
الاستخلاص الآلي إلى حقيقة يمكن إنجازها وهذه الخوارزميات لم يتم إنجازها 
بنجاح إلى OV‏ ومن أهم العقبات التي تواجه إنتاج مستخلصات AS‏ معالجة 
الدلالات و فهم النخلصوص Semantic Porcessing and Text Understanding‏ من 


خلال أنظمة التلخيص الآلي. 
> 3.3.4.3 الاشتقاقات Extacts‏ 


الاشتقاق هو عبارة عن جزء أو أكثر من الوثيقة يتم اختياره لتمثيل الوثيقة ككل» 
ولايمكن لتلك الاشتقاقات أن تمثل الوثيقة بشكل جيد؛ مع ذلك فهي مفيدة للقارئ 
الذي يحتاج إلى موجز لأغراض دراسة معينة» ولا يمكن النظر إلى الاشتقاق بأي 
حال من الأحوال على أنه بديل للوثيقة الأصلية. على الرغم من أنه عادة ما يتم النظر 
إلى الاشتقاق على أنه أقل من حيث الكفاءة وجودة التمثيل عن كل من الاستخلاص 
والتلخيص؛ إلا أنه يعتمد بصورة كاملة على النظم الآلية. فجميع أنظمة استرجاع 
المعلومات على الإنترنت Le‏ فيها جوجل تعتمد كلياً على الطرق الآلية للاشتقاق. 

ومن الأساليب التي تم استخدامها من جانب نظم الاسترجاع على الإنترنت في 
الاشتقاق هو استخدام نموذج القطع Ellipsis‏ أو التوقف عند نقطة معينة عن إجراء 
الاشتقاق عندما يصل الجزء المشتق إلى نقطة القطع Cut off Point‏ التي تم تحديدها 
بخوارزميات النظام. لذلك فإن جودة عملية الاشتقاق الآلي تعد إحدى المشكلات 
المهمة التي يتم النظر إليها في بحوث ودراسات هذه النوعية من النظم. 


> 3.3.5 الملخص الوافي للموقع (موم) 


يمكن وضع مختصرة عربية موازية للمصطلح 155 وهي (موم) لتشير إلى 
مصطلح الملخص الوافي للموقع» والذي يعد أحد تطبيقات الجيل الثاني للويب 


ويستخدم لأغراض تمثيل المعلومات بصورة موجزة ومختصرة. 
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وبشكل ار يدا اسعخدام سوم eA RSS‏ اشكال الملقيات all‏ طاق عليهنا 
التجميع لأغراض التغذية للمعلومات المحدثة من مصادر متنوعة. ويمكن للأفراد 
المشتركين في هذه النوعية من الخدمات من خلال قارئ يطلق عليه برنامج التجميع 
ggregator Program‏ أن ب A a‏ ;5 خاصة تت نه التى 5 
م ذا 7 | أجهزتهم الخا 4\ مات المحدثةا a‏ 
برامج التغذية؛ لذلك يمكن النظر إلى موم على أنها خدمة إحاطة جارية في بيئة الويب» 
تقدم للمشتركين فيها ملخصا للمعلومات الحديثة المتاحة من المصادر التي يهتمون بها. 
وإدراكاً للدور المهم لخدمة موم قام المطورون في اتحاد الشبكة العنكبوتية العالمية 
W3C‏ بتطوير إصدار جديد من موم» عندما توقفت شركة Netscape‏ والتي طورت أول 
متصفح ويب بالرسومات عن دعم الإصدار الأول من قارئ موم الذي قامت بتطويره. 
نظراً لآن الإصدار الجديد من موم تم بناؤه بالاعتماد على معيار إطار وصف المصادر 
Resources Description Framework- RDF‏ والذي قامت Lal W3C‏ بتطويره كجزء 
من حركة الويب SYM‏ التي يدعمها الاتحاد» فقد تم تغيير استهلالية موم لتصبح RDF‏ 
Site Summary‏ آي ملخص الموقع باستخدام إطار وصف المصادر» وذلك لتمييزه عن 
الإصدار السابق (Kelly,2005)‏ وتجدر الإشار إلى أنه يوجد مصطلح آخر مستخدم 
للدلالة على مفهوم موم وهو التلقيم الحقيقي المبسط - Really simple syndication‏ 
RSS‏ والذي يعتمد على التقنية والأدوات نفسها. 





- <item> 
= <title> 
<I[CDATA[ Countdown for nasty Vindovs virus [[< 
</title> 
<ink>http:/ /news.bbc.co.uk/go/rss/-/2/hi/technology/4661582.stm</ink> 
- <description> 
<I[CDATA[ A destructive Vindows virus is set to start deleting 
popular files on infected machines on 3 February. [[< 
</descnption> 
= <author> 
<!(COATA[ boris®@yeltsin.com(Boris Yeltsin) [[< 
</author> 
- <category domane"http://www.MyDomain/technology"> 
<!I[(CDATA[ Technology [[< 
</category> 
<comments>http:/ /news.bbc.co.uk/go/rss/- 
/2/bhi/technology/4661582.stm</comments> 
<enclosure url="http:/ /news.bbc.co.uk/go/rss/- 
/2/hi/technology/fake_video_link.mpeg" length="99554122" 











نموذج )2( لشكل ملف موم RSS XML FORMAT‏ 


COW الفصل‎ 


وعند مقارنة موم مع غيره من طرق التلخيص التي تم تناولها في هذا الجزء. 
نجد أن موم يتم بطريقة آلية على الويب. وتلبي هذه الطريقة الآلية احتياجات 
قطاع عريض من المستفيدين على الويب الذين يرغبون في الحصول على 
المعلومات الحديثة التي تظهر في مجموعة من المواقع في مكان واحد. فقارئ 
الملخص الوافي للمواقع أو التلقيم المبسط للمحتوى يقوم بتجميع Aggragate‏ 
المعلومات الموجزة من مناطق معينة في مواقع الويب وعرضها للمستفيد في 


وتجدر الإشارة إلى أن جودة الملخص الذي تنتجه هذه الطريقة أقل بكثير من 
غيرها من طرق التلخيص مثل المستخلصات» حيث إن جودة عملية التمثيل لا تستند 
إلى معايير محددة في إعداد الملخص الوافي للموقع» ما يجعلها متضاربة في الشكل 
ومختلفة في البناء على عكس المستخلصات التي توجد معايير تحدد طريقة إعدادها 
وأشكال البناء الخاصة بها. 


ونظراً لأن التكشيف يعد أبرز نماذج تمثيل المعرفة وأكثرها استخداماً في البيئة 
الورقية والرقميةأيضاًء فمن الضروري تسليط الضوء على أنواع الكشافات وطرق 
تقسيمها وبنائها ووظيفة كل منها كأدوات لتمثيل المعرفة. 


> 3.4 أنواع الكشافات 


يرى عبدالهادي (2005) أنه يمكن تقسيم الكشافات Fy‏ على طبيعة الوحدات 
المكشفة» نوعية المداخل المستخدمة» طريقة ترتيب المداخل» نضيف إلى ذلك أنه 
يمكن النظر إلى الكشافات Lay Lal‏ لنظام التكشيف المستخدم إلى كشافات آلية 
وكشافات مميكنة وكشافات يدوية كما سبق وأوضحنا. 


> 3.4.1 تقسيم الكشافات وفقاً لطبيعة المادة المكشفة 


تنقسم الكشافات وفقاً لطبيعة المادة المكشفة إلى خمسة أنواع أساسية هي: 
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> 3.4.1.1 كشافات الكتب 


Books Index 


يتم في تلك النوعية تكشيف المفاهيم والأعلام والمصطلحات الواردة في نصوص 
الكتب» وتلحق بنهايات الكتب» لكي تستخدم في الوصول إلى أي معلومة تفصيلية 
بالكتاب عند الحاجة. وعادة ما يتم ترتيبها ترتيباً هجائياً منفصلاً لكل نوعية بحيث 
يكون لكل شكل كشاف منفصل GLAS)‏ للأعلام» آخر للأماكن» ثالث للمفاهيم أو 
الكلمات المفتاحية)؛ أو ترتيباً شاملاً يجمع كل هذه العناصر مجتمعة معاً في كشاف 
واحد. ويستخدم هذا النوع من الكشافات في الكتب كما يستخدم أيضا وعلى نطاق 
واسع في معظم أنواع المواد المرجعية مثل الموسوعات. الكتب السنوية» الأدلة.. إلخ. 


> 3.4.1.2 کشافات المسلسلات 


Serials Index 


هى عبارة عن كشافات بمحتويات الدوريات والصحف والمجلات من مقالات 
PENE‏ وغالباً ما ترتب هذه الكشافات ترتيباً هجائياً واحداً. ويعد هذا النوع من 
الكشافات من أكثر الأنواع شيوعاً وأهمية؛ نظراً لما مر به من تطورات بدأت باستخدام 
الحاسب الآلي في عمليات التكشيف» والبحث خارج الخط المباشر ثم البحث على 
الخط المباشر وأخيرا الاسترجاع من خلال شبكة الإنترنت والشبكة العنكبوتية. 


> 3.4.1.3 كشافات الاستشصادات المرجعية 


Citations Indexes 


إذاكانت SELES‏ الذوريات تساغد غلى الوصول إلى مقالات الدوريات 
التي تم تكشيفها تحت رؤوس موضوعات أو كلمات مفتاحية تصف محتواها 
الموضوعىء فإن كشافات الاستشهادات المرجعية تساعد على الوصول إلى 
مقالات laal‏ وفقاً للعلاقات التى تربط بينها من خلال الاستشهادات 
LTTE pee pl‏ الس فشكل بين NE‏ المصندرية والأعسال التي في 
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الاستشهاد بها في هذه المقالة المصدرية تعني وجود رابطة خفية بين المفاهيم 
والموضوعات التي تمت معالجتها في المقالة المصدرية والأعمال المستشهد 
بهاء وهو الأساس الذي تقوم عليه فكرة كشافات الاستشهادات المرجعية. فقد 
استقى يوجين جارفين Ugine Garven‏ فكرة كشافات الاستشهادات المرجعية من 
فكرة السوابق القانونية المستخدمة في القانون الأمريكي. وتساعد هذه الكشافات 
على التعرف إلى الدوريات البؤرية» الأعمال البؤرية في تخصص cle‏ والمؤلفين 
البؤريين أو الأساسيين في أحد المجالات العلمية. فتكرار الاستشهاد بمؤلف 
معين في أحد المجالات يعني أن دراسات هذا المؤلف من الأعمال البؤرية في 
ذلك المجال الموضوعي. وسيتم عرض نماذج لتلك النوعية من الكشافات عند 
استعراض قضية التمثيل في نهاية هذا الفصل. 


> 3.4.1.4 كشافات النصوص 
Concordance Indexes‏ 

تتيح تلك النوعية من الكشافات تحليلات صرفية كاملة للمواد ذات الطبيعة الخاصة 
بحيث يمكن الوصضول إلى كل جذور الكلمات ومشتقاتها فى تلك التنضوص. Boley‏ 
ا ا iin‏ "فى كين السرص ER‏ مدل التصدوصض الل رادب 
المقدسة والقوانين والدساتير والاتفاقيات والمعاهدات والأعمال الأدبية البارزة.. الخ. 
وعادة ما ترتب هذه الكشافات هجائيا وفقا للمصطلحات الواردة فى النصوص متبوعة 
Las yey op Stab‏ تى نين الت وم SLES edie shel‏ لكل pal ALAS‏ درن 
تمييز. يستخدم هذا النوع من الكشافات مع النصوص ذات القيمة الكبيرة» ويكون لكل 
كلمة في النص أهمية لا يمكن إغفالها. ومن أمثلة هذا النوع من الكشافات «المعجم 
المفهرس لألفاظ القرآن الكريم/ محمد فؤاد عبد الباقي»» و«المعجم المفهرس 
لألفاظ الحديث إعداد فنسنك» أي» تحقيق محمد فؤاد عبد الباقي». 

ويتميز هذا النوع من الكشافات بإمكانية البحث فيه بأي كلمة في النص» ما 
يساعد على تحديد موضعها أو بيان موقعها ضمن جملة أو سياق معين. ويستخدم 
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أيضاً في الدراسات اللغوية والمعجمية حيث إن العديد من التفاسير اللغوية تعتمد 
على مثل هذا النوع من الكشافات في تجميع المعاني المختلفة لمفهوم واحد. 
ويعدهذا النوع من الكشافات من أصعب أنواع الكشافات في حالة النظم اليدوية» 
لكنه يعد من أسهل وأسرع أنواع الكشافات في حالة نظم التكشيف الآلي التي 
تعتمد على استخدام إمكانيات الحاسب الآلي في تحديد مواضع الكلمات 
والجمل. فعلى سبيل المثال في حالة استخدام هذا النوع من الكشافات في 
تحديد عدد مرات ورود كلمة الجنة والنار في القرآن الكريم» ثم تحديد مواضع 
ورودهما سواء معاً أو بشكل منفصل. يقوم نظام التكشيف الآلي بإعراب Parsing‏ 
للنص بالكامل بحثاً عن الكلمتين باستخدام أسلوب المضاهاة المضبوطة Exact‏ 
Match‏ - أي مضاهاة حرف بحرف — وعندما تتطابق كل الحروف مع بعضها بعضا 
يعرض نظام التكشيف الكلمة مصحوبة بالسياق مثل السورة ورقم الآية وغيرها 
من المحددات التي يمكن التحكم فيها قبل إجراء البحث. 


> 3.4.1.5 كشافات مواقع الإنترنت 


Internet Indexes 


يطلق على هذه النوعية من الكشافات أدوات تمثيل واسترجاع المعلومات المتاحة 
على الإنترنت. يوجد أربع أدوات رئيسة يمكن استخدامها في بحث الشبكة العنكبوتية 
هي أدلة البحث ومحركات البحث» وما وراء المحركات» بوابات الويب. وسوف 
نتناول هذه الأدوات بشكل أكثر تفصيلاً فى فصل مستقل للتعرف إلى طريقة بناء هذه 
الأدوات وآليات عملها في التكشيف والتحليل والبحث والفرز. 


> 3.4.2 التقسيم وفقاً لأنواع المداخل المكشفة 


تتنوع مداخل التكشيف بتنوع الوحدات المكشفة» والتي تحدد المدخل الملائم 
لترتيب التسجيلات التي تتضمنها الكشافات. وعلى الرغم من أن قضية الترتيب لم 
تعد بالأهمية التي كانت عليها قبل استخدام أنظمة التكشيف الآلية التي أصبحت 
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الأساس الآن فى إعداد الكشافات. إلا أن بنية هذه النوعية من الكشافات كان لها 
أثر كبير فى تطور أساليب التكشيف وبنية الكشافات الآلية وقواعد البيانات. ويمكن 
تقسيم الكشافات وفقاً لنوعية مدخل التكشيف إلى: 


> 3.4.2.1 كشافات العناوين 


فى الكشيافات القى le p53‏ غناوين الأعمال هن كنب ومقالات وأغعفال 
مؤتمرات. وقد ظهرت أول أشكال كشافات العناوين مع بداية استخدام نظام 
المصطلح الواحد Uni-Term‏ في إعداد كشافات التباديل الموضوعية للعناوين. 
فظهرت أنواع عدة من الكشافات التي تركز على استخدام المصطلحات الواردة في 
في السباق Key Words In Context (KWIC)‏ أبرز مثال لهذه النوعية من الكشافات. 
الموضوعي للوثائق. كما تستخدم كمداخل لترتيب هذه النوعية من الكشافات. 


> 3.4.2.2 كشافات الموضوعات 


تعد هذه الفئة أشهر أنواع الكشافات وأكثرها انتشاراً واستخداماًء حيث إن قواعد 
SLL‏ اللي جر اف Leeda‏ فى المجالات gol‏ ضوعية المكتافة ماه إلا 
LIS‏ موضوعية مناس فی ba Ty ogg SU JSS‏ مااع عدن CLAS‏ 
متاحة في صورة قواعد بيانات ببليوجرافية وقواعد بيانات للنصوص الكاملة التي 
تصدر عن الناشرين التالين: 

Elsevier - https://www.elsevier.com 

Springer — https://www.springer.com 

Wiley — https://www.wiley.com 

: إلخ‎ . ©OVID, TAYLOR and Francis, EMARLD, SAGE: وغير هم مثل‎ 


وعلى المستوى العربي بدأت الكثير من الشركات العربية مع بداية الألفية الجديدة 
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في إنشاء قواعد بيانات بالمحتوى العربي في مختلف التخصصات. نذكر منها على 
سبيل المثال لا الحصر: 

1. دار المنظومة: http://www.mandumah.com‏ 

https://www.almanhal.com المنهل:‎ 2 

3. مكتبة دبي الرقمية https://ddl.ae‏ 

4. إثراء المعارف الرقمية http://ethraadl.com‏ 


http://www.e-marefa.net/ar معرفة‎ ٠.5 


> 3.4.2.3 كشافات المؤلفين 

تعد قوائم الأسماء والأعلام الواردة في الأعمال العلمية والأدبية من الأدوات 
المهمة التي يحتاج الأفراد والمؤسسات إلى إبرازها. لذلك اهتمت العديد من 
المؤسسات بإعداد كشافات بالمؤلفين والتي كانت تظهر في نهايات الكتب أو 
المواد المرجعية مثل الموسوعات» وترتب ترتيباً هجائياً وفقاً لأسماء المؤلفين 
المستشهد بأعمالهم الآدبية والعلمية في متن النص. ومع تطور منصات اللبحث 
المعاحة على الخط tl‏ اتات تلك الفنصات LI‏ اليك claw‏ 
المؤلفين للوصول إلى كافة أعمال مؤلف معين» كما هو الحال في قواعد بيانات 
الاستشهادات المرجعية التي سبق ذكرها. وبظهور وتطور تلك المنصات اختفت 
تقريباً كشافات المؤلفين المستقلة وأصبح الاعتماد بصورة أكبر على تلك المنصات 
في التعرف إلى أعمال المؤلفين وتقييم أدائهم العلمي والمعرفي. كما ظهرت 
أدوات جديدة في البيئة الرقمية تتسم بملامح المشابكة والتواصل بين المؤلفين 
والباحثين» عرفت بشبكات المؤلفين الاجتماعية والتي تم تطبيقها في القياسات 
البديلة كما سنوضح لاحقاً. وقد بدأت العديد من المؤسسات البحثية والأكاديمية 
أخيراًء الاهتمام بإعداد ملفات السمات الأكاديمية E-protoflio‏ ليوفر بيانات كاملة 
عن patel pte E‏ كلاق الم سات 
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ونظراً لأهمية دور المؤلفين ومشاركتهم العلمية والحاجة إلى تقييم أدائهم» ظهرت 
العديد من مؤشرات القياس التي تحاول وضع مقاييس رقمية لتقييم الإنتاجية العلمية 
للمؤلفين وأثرهم في المجالات البحثية. وتنقسم هذه القياسات إلى نوعين رئيسين: 


el 


وتعتمد تلك المقاييس على مؤشرات الإنتاجية العلمية وجودة الإنتاج العلمى 
الذي يتم قياسه من خلال معدلات الاستشهاد. وقدتم ابتكار العديد من المؤشرات 
لقياس الأداء العلمي للمؤلفين لعل أبرزها: 


كشاف H Index‏ وهو مقياس ابتكره العالم هيرش Hirsh‏ ليحدد درجة 
مساهمة المؤلف بناء على عدد المقالات المنشورة وعدد الاستشهادات 
التى حصلت عليها. ووفقاً لهذا الكشاف يحصل المؤلف على كشاف 
OSA‏ سم E ge‏ لی بد ای يسادل رب البحث فى 
dg jbo asta‏ فلن سيل الال fare‏ الاق gle‏ عاف اال 5 
إذا حصل 5 أبحاث من قائمة أبحاثه على 5 استشهادات على الأقل. ولإجراء 
عملية القياس بدقة يتم ترتيب قائمة الأبحاث ترتيباً تنازلياً وفقاً لعدد 
الاستشهادات. وتكون قيمة h‏ تعادل قيمة الأبحاث N‏ التى حصلت على N‏ 
مسن الا lgt‏ أو l jos)‏ 

مقياس Index‏ 10 1: وهو مقياس يطبقه جوجل العلمي منذ عام 2011 لتحديد 
غدذد الاباك العى عضلنت على الأقل ple‏ عدة 10 استشيادات كنقياس 
لجدارة الأعمال» eee‏ أن حصول البحث على عدد 10 استشهادات 
مقياس جدارة» أما الأبحاث التى تحصل على عدد أقل من 10 استشهادات لا 
تدخل في قائمة التقييم. من ثم فمؤشر Index‏ 0 يعتمد على إحصاء عدد 
المقالات التي نشرها الباحث خلال فترة زمنية ثم إحصاء عدد المقالات 
التى تمثل المؤشر1التى حصلت على 10 استشهادات على الأقل. ولعل أبرز 
sedi‏ أله يحي قر itil ele‏ 
كفاءة كل بحث على حدة. ويمكن من خلاله تقييم أداء الباحثين خلال فترة 
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زمنية» إلا أنه يفتقر إلى وجود دلالة واضحة لشكل مخرجات المؤلف بصفة 
عامة .Author Contribution Shape‏ 


وعلى غرار هذين المقياسين تم ابتكار عدد آخر من المقاييس التي تحاول التغلب 
على بعض الصعوبات التي توجد في المقياسين السابقين ومنها: G index, A index,‏ 
index, P 100‏ قط. وتعتمد كل هذه المقاييس على تمط pL‏ المطبق فى 
بناء على مقياس للجدارة والاستحقاق الأكاديمى. 

ll‏ مقاييس بديلة 

ظهرت فكرة المقاييس البديلة على يد جاسون بريم Jason Priem‏ في عام 2010 
الذي كان طالب دراسات عليا بجامعة نورث كارولينا بتشبل هيل» والذي شر بحفاً 
بعنوان .Altmetrics: A Manifesto‏ تستند هذه النوعية من القياسات إلى تحليل 
الويب الاجتماعى Social Web‏ يشتمل هذا المقياس على ثلاثة ملامح: 


- العمل فى بيئة الويب 
- الحاجة الماسة إلى قياسات جديدة وتوافر بيانات مهمة تدعم هذه القياسات 
- القياسات البديلة مرتبطة بأنشطة الاتصال العلمى 


وتعد القياسات البديلة امتداداً لحركة التجميع والمتابعة والتحليل للأنشطة العلمية 
بغرض التقييم والترتيب» ولا تقتصر على المواد التقليدية مثل الكتب والدوريات» 
ولكن تشمل أيضا العروض والملصقات والمحاضرات المسجلة والتعليقات 
والمدونات والتدوين الصوتي Pt‏ الفديوهات والرسوم البيانية ومجموعات 
البيانات Datasets‏ 


والنقاش داخل وخارج المجتمع العلمي. ويوجد أربعة قياسات بديلة للمؤلفين 
يوضحها الشكل التالي: 
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قصة تأثير المؤلف 


Impactstory Profile 





Plumx Sunbursts 





: قياسات المؤلف 
كلية الألف 
Author Impact Level‏ 


Faculty of 1000 








محددات هوية الباحثين 
Research Gate‏ 
Researcher ID‏ 
ORCID‏ 











Research Gate: https://www.researchgate.net 
Researcher ID: https://clarivate.com/products/researcherid 


ORCID: https://orcid.org 


> 3.4.2.4 كشافات الكيانات 


هي قوائم بأسماء الهيئات أو الأماكن أو المؤسسات أو العناصر الكيميائية والعلامات 
التجارية وغيرها من الكيانات التي ترد في متن الأعمال. ويهتم العديد من المؤلفين 
بإعداد كشافات بالمختصرات والاستهلاليات المستخدمة للدلالة على أسماء الكيانات 
الواردة في أعمالهم. كما توجد مجموعة أخرى من الكشافات ولكنها أقل انتشاراًء من 
المجموعة السابق ذكرهاء مثل كشافات المعادلات والتركيبات (الكيميائية والرياضية) 
كشافات التواريخ والأرقام» كشافات الأجناس والفئات.. وغيرها. 
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> 3.4.3 تقسيم الكشافات وفقاً لطريقة الترتيب 


توجد ثلاث طرق أساسية لترتيب المواد فى الكشافات وغيرها من أدوات التمثيل 
والضبط المتاحة في شكل مطبوع أو رقمي» هي: الترتيب الهجائي» الترتيب المصنف» 


> 3.4.3.1 الترتيب السجائى 


توجد طريقتان أساسيتان بصفة عامة للترتيب الهجائي» الأولى تعتمد على الترتيب كلمة 
بكلمة «Word By Word‏ وفي هذه الحالة فإن كلمة مثل San Salvador‏ سوف تسبق كلمة 
مشل Sandman‏ على أساس أن San‏ كلمة منتهية. أما الطريقة الثانية فتعتمد على الترتيب 
حرف بحرف Letter By Letter‏ وفي هذه الحالة Sandman op‏ سوف تسبق San Salvador‏ 
على اعتبار أن حرف 4 يسبق في الترتيب الحروف الخاصة مثل المسافات وغيرها. كما أن 
كلمة مثل «استراتيجية) سوف تسبق «استراتيجيات سياسية» في نظام ترتيب كلمة بكلمة 
بينما تسبق «استراتيجيات سياسية» كلمة «استراتيجية؟ في نظام ترتيب حرف بحرف. 


> 3.4.3.2 الترتيب المصنف 


يعتمد الترتيب المصنف على تطبيق نظام التقسيم إلى OLS‏ من خلال تطبيق خطط 
تصنيف المعرفة ومنها خطط التصنيف العامة مثل تصنيف ديوي العشري» العشري العالمي» 
مكتبة الكونغرس؛ أو تطبيق نظام تصنيف متخصص. توجد طريقتان أساسيتان لإعداد 
الكشافات المصنفة» في الطريقة الأولى تظهر المداخل تحت أرقام مخصصة ودقيقة إلى 
حد كبير» وتشتق هذه الأرقام من خطة تصنيف عامة أو متخصصة. وهذه الطريقة كانت 
الطريقة الأساسية في إعداد وتجهيز المداخل الموضوعية» حيث ترتب المداخل الموضوعية 
و Las‏ لخطة تصنيف وجهية Faceted Classification Scheme‏ معدة Gaas‏ للتطبيق في 
الكشاف. كما توجد بعض الكشافات المطبوعة التي تعتمد على نظم تصنيف عامة مثل 
خطة تصنيف العشري العالمي -Universal Decimal Classification (UDC)‏ 
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أما الطريقة الثانية لبناء الكشافات المصنفة فتستخدم في ترتيب المداخل 
الموضوعية بالكشافات» وتعتمد على اشتقاق الرؤوس الموضوعية من قواعد 
البيانات» ثم يتم تجميع المداخل تحت فئات موضوعات عريضة مرتبطة» بالتالي 
يمكن الوصول إلى رؤوس الموضوعات الدقيقة من خلال الكشافات المساعدة» 
حيث ترتب المداخل تحت فئات موضوعية عريضة وتحت كل فئة موضوعية توجد 
فئات ثانوية. وقد استخدم هذا النمط من الترتيب أيضاً في بناء أدلة البحث لمصادر 
الويب التي سوف نناقشها بالتفصيل Lad‏ يلي» وعادة ما يكون ناتج عملية التكشيف 
والترتيب في حالة الاعتماد على الترتيب المصنف أحد أنواع الكشافات المعروف 
بالكشاف المتسلسل -Chain Index‏ 


Chain Indexing الكشاف المتسلسل‎ © 


يستخدم هذا النمط من أنماط التكشيف لمعالجة وترتيب رؤوس الموضوعات 
التي يتم اشتقاقها من خلال خطط التصنيف عامة أو متخصصة. والهدف من إعداد 
هذا النوع من الكشافات ضمان توافر مداخل تحت كل مصطلح من المصطلحات 
المكونة للرأس المركب» فضلاً عن ربط هذه المداخل في سلسلة بالمصطلحات 
الأعرض والأضيق منه في البناء الهرمي. معنى ذلك أن المصطلحات في الكشاف 
المتسلسل تظهر في شكل سلسلة تنتقل من العام إلى الخاص. 


tly في‎ pode الريب‎ das ltd all elt مين‎ ppl شير هاا‎ 

البجاية» وخر بابنتخداء كل المداعل Leek gf LK‏ سن مرلن crashes‏ 
وموضوعات في ترتيب هجائي واحد. ويتنوع الترتيب في هذه الحالة أيضاً ما بين 
الترتيب كلمة بكلمة أو الترتيب حرفاً بحرف. وعادة ما يستخدم الترتيب القاموسي 
فى إعداد الكشافات التجميعية Cumulative Indexes‏ التى تتضمن مداخل المؤلفين 
والهيتات والمؤسسات في كشاف واحد. ويمكن إعداد هذا النوع من الكشافات 
للكتب والمضادذر المرجعية محل الموسوعات aly‏ الخمل والكشب الستوة 
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وصفحات الويب الصفراء Yelow Web Pages‏ . كما تم استخدام هذه الطريقة في 
إعداد الفهارس القاموسية قبل ظهور الفهارس المتاحة على الخط المباشر. وهي 
نوع متميز من الفهارس اليدوية كانت ترتب فيه كل أشكال المداخل في ترتيب 
هجائي ely‏ مع إعداد الإحالات المناسبة وخاصة إحالة (انظر أيضا)» حيث 
إنه يمكن أن يكون لكل عمل على الأقل مدخل رئيس بالمؤلف وآخر بالعنوان 
وثالث بالموضوعات. بالتالي يتم إعداد حالات (انظر أيضاً) إلى مواقع البطاقات 
الخاصة والموضوعات في ترتيب بطاقة المؤلف. ويساعد هذا النوع من الترتيب 
على سهولة الوصول إلى مصادر المعلومات. إلا أنه يعيبه كبر حجمه وصعوبة 
إعداده. ومع ظهور أدوات البحث في البيئة الرقمية اختفت هذه النوعية من 
أساليب الترتيب اليدوي وظل مفهوم الترتيب مستخدماً في البيئة الرقمية في الأدلة 
والوكيبيديا والموسوعات الرقمية والكشافات التجميعية. 


> 3.5 قضية التمثيل 


تم استعراض الطرق المختلفة لتمثيل المعلومات وتصنيفاتها المتنوعة» والتي 
تشمل التكشيف الاستخلاص والملخصات والاشتقاقات والتقسيم إلى ات 
والتوسيم الاجتماعي والملخص الوافي للموقع. وتعد هذه الأساليب أبرز الطرق 
المعروفة لتمثيل المعلومات في البيئة الرقمية» كماتم توضيحه مسبقا فإن هذه 
الطرق تختلف عن بعضها بعضاً في مدى تمثيلها للوثيقة الأصلية. وعند ترتيب 
os esl Leal‏ حك جود ار ا GAS‏ على دا الات tab‏ 
الاستخلاص من حيث الأهمية والتطبيق Lat‏ ويعد موم أقل هذه الفئات استخداماً 
ثم يآتي كل من التقسيم إلى OLS‏ والتوسيم الاجتماعي في منطقة متوسطة بينهما. 
مع العلم أن التوسيم الاجتماعي بدأ يزداد الاهتمام به في السنوات الأخيرة مع زيادة 
الاهتمام بتطوير الويب الدلالي وأدوات التفاعل الاجتماعي. وعلى الرغم من أن هذه 
المقارنة موجزة: إلا أنها تلقي الضوء على كيفية استخدام كل طريقة من طرق تمثيل 
ela Le plac‏ مهمة سير سبل الوصول إلى المعلومات: 


COW الفصل‎ 


> 3.6 الطرق الأخرى لتمثيل المعلومات 


تعد عمليات التكشيف والتقسيم إلى فئات والتلخيصء أساليب تقليدية لتمثيل 
المعلومات؛ وإلى جانب هذه الطرق التقليدية توجد مجموعة من الأساليب الفريدة 
في نوعها من حيث آليات تمثيلها للمعلومات وفي طريقة تطبيقها واستخداماتها في 
تمثيل المعلومات والتي سيتم مناقشتها في هذا الجزء. 


Citations الانستشصادات‎ 3.6.1 > 


تشير الاستشهادات إلى المصادر التي يرجع إليها المؤلف عند إعداده toed‏ أو دراسة» 
ويستعين بها في كتابته العلمية. وقد عرفت في تاريخ العلوم بعلم السند Authenticity‏ 
الذي يهتم بتوثيق المعلومات ومصادرها وجودة تلك المصادر. والاستشهاد يعني بصفة 
عامة توثيق العلاقة بين كل أو جزء من الوثيقة المُسْتَشْهدٍ بها Cited Document‏ وكل 
أو جزء من الوثيقة )22220 .Citing Document (Malin, 1968) sag‏ فمنذ أن ابتكر Dr.‏ 
Eugene Garfield‏ فكرة انات وطرق قياسها في العصر الحديث» اس معهد 
المعلومات العلمية؛ قام بنشر كشافات الاستشهادات المرجعية والتي تشمل: 

Science citation Index كشاف استشهادات العلوم‎ - 

- كشاف استشهادات العلو م الاجتماعية „Social science citation Index‏ 


.Arts & Humanities citation Index ò pall g كشاف الإنسانيات‎ - 


وقد كان لظهور كشافات الاستشهادات المرجعية أثر كبير في تطوير أدوات قياس 
القيمة العلمية لمصادر المعلومات وتمثيلها بأرقام تدل على أهميتها العلمية من 
خلال معدلات الاستشهادات المرجعية بتلك المصادر. ولعل أهم هذه الأدوات تقرير 
الاستشهادات المرجعية Journal Citation Report‏ والذي يقوم بترتيب الدوريات 
العلمية Lay‏ لأهميتهنا السيبة وقيمتها المعرفية من خلال ae‏ مرات الاستشهاد 
بها. كما ظهرت في السنوات الأخيرة كشافات لاستشهادات المؤتمرات العلمية في 
مجالات العلوم والعلوم الاجتماعية والإنسانيات. 
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Scientific Conference Proceedings Citation Index 


Social Science and Humanties Citation Index 


ومددبداية تشر كشافات الاستكهادات المرجعية فى lel nate‏ من القرن 
otal‏ إلى الأو جد جد داق را Uti casing EE E ETS‏ 
ا ا المعرقة المضنادر EE‏ الم ALS‏ الا سات ت ي 
الرواد ومنحهم حقوقهم الأدبية في الأعمال المنسوبة إليهم إلى جانب التعرف إلى القيمة 
العلمية wally‏ فة oll‏ ات والمضادر clin golly‏ وعد ظيوز كشافات الانشياداك 
المرجعية واستخدامها بدأت العديد من قواعد البيانات تهتم برصد الاستشهادات في 
صورة إلكترونية وإعداد إحصاءات دقيقة بمعدلات الاستشهاد العلمي لعل أهمها: 

ISI Web of Knowledge شبكة المعرفة بمعهد المعلومات العلمية‎ ٠ 

تعد شبكة المعرفة إحدى أهم وأقدم قواعد بيانات التكشيف والاستشهادات المرجعية 
في العالم» حيث نشرت لأول مرة في صورة مطبوعة في عام 1964 تحت مسمى كشاف 
استشهادات العلوم Science Citation Index‏ وقد ابتكرها الدكتور يوجين جارفيلد الذي 
أسس Led‏ بعد المعهد القومى للمعلومات Institute of Scientific Information — ISI‏ 
کا سق Rid sy‏ قرم روتكيف رإعام E E OE‏ 
فيما بعد. وقد تم بيع عنكبوت المعرفة إلى مجموعة شركات رويترز» فظهرت تحت 
اسم مؤسسة تومسون رويترز Thomson Reuters‏ والتي تتولى إصدار مجموعة مهمة 
من المنتجات التي تساعد على تتبع حركة النشر الدولي بصورة دقيقة. ومن أهم 
مخرجات هذه المؤسسة شبكة العلوم ISI Web of Science‏ والتي تشتمل على عدد 
كرديو platy EE pill RE be Beall‏ اا gee‏ 
النشر الدولي في مختلف مجالات العلوم والمقارنة. وتشتمل قاعدة بيانات شبكة 
العلوم على المواد التالية: 

- 23 ألف دورية علمية 


- نحو 23 آلف براءة اختراع 
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- 110 آلاف أعمال مؤتمرات 
- 9آلاف موقع ويب 
- أكثر من 40 مليون تسجيلة لتلك المواد مجتمعة 


= يمكن بحث كافة تلك المصادر بصورة كاملة من خلال صندوق بحث 


واحد. 
© المستكشف Scopus‏ 


ظهرت قاعدة بيانات SCOPUS‏ كمنافس لقاعدة بيانات عنكبوت العلوم منذعام 
7 وبدأت في تكشيف أكثر من 25 لف دورية علمية. وهو ثاني أكبر قواعد بيانات 
الاستشهادات المرجيعة التي يمكن من خلالها التعرف إلى توجهات النشر الدولي 
وتأثير الدول فى المجالات العلمية المخلتفة. وتتميز تلك القاعدة بتركيزها بشكل 
gle ae‏ تي ااج ا JSS US dy ya ity‏ ای موه يعد الات pial‏ 
التي قام بهاوعددالمصادر التي اعتمد عليها وعدد الاستشهادات التي حصل Lele‏ 
وتاريخه المهني والآكاديمي» ما يجعلها أداة مهمة لتقييم الباحثين على المستويات 
المحلية والإقليمية والدولية. 


تتضمن مستخلصات واستشهادات مرجعية حول الإنتاج الفكري المنشور في 
الدوريات العلمية ومصادر الويب في جميع مجالات المعرفة البشرية. كما تساعد 
على التعرف إلى الإنتاج الفكري المنشور في أكثر من 15 ألف عنوان متاح لدى أكثر 
من 4000 ناشر» كما تشتمل على أكثر من 12850 دورية أكاديمية» 500 دورية منشورة 
على الويب» ملخصات واستشهادات 700 مؤتمر علمي» 28 مليون مستخلص» 245 
مليون استشهاد مرجعي» 3 مليون براءة اختراع.. الخ. http://www.scopus.com/‏ 
scopus/home.url‏ 


وقد آدت المنافسة بين المصدرين السابقين (عتكبوت المعرفة والمستكشف) إلى 
سباق في تقديم مؤشرات وأساليب عرض جديدة لتقييم الأداء العلمي والقيمة البحثية 
لعصناةن التعلومات لعل أهنها: 
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œ‏ معامل التأثير si| Impact Factor‏ يعد الأداة الأساسية في تقييم الدوريات 
العلمية وجودة وكفاءة النشر العلمى فى مختلف آليات القياس العالمية. 


° كشاف H H Index‏ الذي أصبح يستخدم لكل من الأفراد والدوريات فى 
عمليات التقييم وكفاءة آليات القياس. 


° تطبييع اشر المصدر لكل وثيقة Source Mormalized Impact Per Paper-‏ 
SNIP‏ وهو عبارة عن مقياس لمعدلات الاستشهاد oomo‏ عدد مرات 
الاستشهاد بكل مقالة مع الأخذ في الاعتبار النوع في معدلات الاستشهاد 

من مجال إلى آخر. 


وعلى الرغم من الاختلافات بين التخصصات من حيث فرص الاستشهاد. 
والمؤشرات التي يتم على أساسها تحديد الأهمية العلمية وفقا لعدد الاستشهادات إلا 
أن الدافع وراء الاستشهاد بأعمال الآخرين قد يختلف من باحث لآخر. ويمكن النظر إلى 
الاستشهاد على أنه اختيار من جانب الباحث لمجموعة من الوثائق تمثل بحثه» وعملية 
التمثبل تأذ فى هذه الحالة شكل الاستشهادات بدلا من بدافل الوثائق التقليدية مكل 
المستخلصات» side,‏ الكشاف. فالاستشهادات عبارة عن SLL‏ ببليوجرافية مثل 
المؤلف أو المؤلفين والعنوان وبيانات.. الخ. وتعبر عن وثائق تم الاستشهاد بهاء بمعنى 
أنه لا توجد حاجة إلى بناء وصيانة أدوات أخرى مثل المكانزء وخطط التصنيف لأغراض 
تمثيل المعلومات» حيث يكتفي بالبيانات الببليوجرافية لكي تعبر عن الوثيقة. 


وتعتمد عملية الاستشهاد على قيام المؤلف باختيار مجموعة من الوثائق يستشهد 
بها لكي تعبر عن وثيقة من خلال قائمة المصادر References‏ من ثم فهو يقوم 
بعملية التمثيل بنفسه. وقيام المؤلف بهذه العملية يعني التخلص من دور الوسيط في 
عملية التمثيل» مايكون له تأثيرات إجابية وأخرى سلبية» لعل أبرز التأثيرات الإيجابية 
أن المؤلف هنا يقوم بدور الكشف وهو على دراية أكبر بالوثيقة وليس بحاجة إلى 
بذل جهود إضافية لتفسير الوثيقة الأصلية» أما التأثير السلبي فيرجع إلى أنه لا يوجد 
تفسير واضح لأسباب الاستشهاد بوثيقة ما وعدم الاستشهاد بأخرى. 
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ومن الأمور التي تثير الكثير من التساؤلات حول الاستشهادات كأداة لتمثيل 
المعلومات هو مدى التغطية وح دود التغطية لقواعد بيانات الاستشهادات. ومع 
ذلك فإن الباحثين في حاجة ماسة إلى استخدام تلك المصادرء نظراً OY‏ بناء قاعدة 
بيانات جديدة أمر في غاية الصعوبة ويستغرق وقتاً طويلاً. كما أن عملية تكشيف 
الاستشهادات المرجعية لا تتطلب أي معرفة خاصة أو ذكاء بشري؛ لذلك فإنه من 
الممكن ميكنة العملية بالكامل ودون تدخل من جانب البشرء والذي يبدو أنه لا 
يمكن تحقيقه مع الأساليب الأخرى لتمثيل المعلومات. 


> 3.6.2 تكشيف سلاسل الحروف 


Strings Indexing 


السلاسل عبارة عن مجموعة من الجمل والعبارات التي يتم تكشيفها لتمثيل وثيقة 
ما. وتوجد أنماط متعددة لتكشيف السلاسل تجمعها كلها خاصيتان أساسيتان هما: 


mi |‏ تتم عملية التكشيف بصورة يدوية لتحديد سلسلة الحروف التي تمثل وثيقة ما. 


2. يتم تجميع مداخل GLAS‏ بطريقة آلية بالإعتماد على سلسلة الحروف التي 
تم إعدادها لتمثيل الوثيقة. 

لذلك» يمكن اعتبار تكشيف الحروف أحد أنماط الكشافات الآلية التي تم وصفها 
Nils‏ وعد كشافات الكلمات المفتاحية Key Words In Context‏ أحد أبرز نماذج 
كشافات السلاسل ومثال لها الكشاف المعروف بنظام LES‏ السياق المحفوظ 
Preserved context index system - PRECIS‏ و نظام تكشيف العبارات المتضمنة 
(Nested Pharse Index system (NEPHIS‏ وفى هذين النظامين يقوم المكشف iach‏ 
بتحديد سلسلة حروف في صورة عبارة أو جملة للتعبير عن الوثيقة» ثم يتم تكشيفها 
كلمة بكلمة من خلال النظم الآلية. ففي نظام PRECIS‏ يتم إعداد شبه مستخلص 
يتم تكشيفه باستخدام الكلمات المفتاحية الواردة فيه» ويعتمد نظام NEPHIS‏ على 
استخدام الملخص أو موجز يختاره المكشف من الوثيقة للدلالة عليهاء ثم يتم تكويد 
هذه السلاسل لتحديد المصطلحات التي تصلح أن تُستخدم كلماتٍ مفتاحية لكي يتم 
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توظيفها كمداخل بالكشافات. وبناء على ذلك فإن الجزء SV‏ فى عملية تكشيف 
السلاسل يمكن أن يتم معالجته LST‏ بسهولة وكفاءة كبيرة. 


ويساعد التكامل بين التدخل البشري في اختيار العبارات والجمل الممثلة 
للوثائق مع استخدام النظم الآلية في أداء الجزء الميكانيكي في العملية» على 
جعل تلك العملية تحمل الكثير من المزايا والجاذبية في تمثيل الوثائق. فهي من 
ناحية تحافظ على جودة عملية التكشيف نظراً للتدخل البشري في الاختيار الدقيق 
للعبارات والجمل التي تمثل الوثائق» ومن ناحية أخرىء فهي تمنع أو تتخلص من كل 
الإجراءات المملة وغير الفعالة» والتي لا تساعد على تحقيق الاطراد في التكشيف 
بالنظم اليدوية من خلال الاعتماد على آلية موحدة بالنظم الآلية. لذلك فإن التطور 
السريع في المعلومات الرقمية سوف يؤدي إلى انتشار استخدام النظم الآلية في 
تمثيل المعلومات وفي استرجاعها أيضا. 


> 3.7 ملخص للاتجاهات الأساسية في تمثيل المعلومات 

اشتمل هذا الفصل على شرح مفصل للطرق والأساليب المختلفة لتمثيا 
المعلومات ويوضح الجدول 2.1 الاتجاهات الأساسية التي تمت مناقشتها في هذا 
الفصل» سواء من حيث نوع التمثيل (استخدام لغة مضبوطة أو حرة في التكشيف) 
إلى جانب طريقة الإنتاج وكل طريقة من هذه الطرق لها مزاياها وعيوبها. ويشير إلى 
أنه عند اختيار طريقة معينة لتمثيل المعرفة فسوف تقوم بتحقيق مايلي:- 

1. التمييز بين المداخل المختلفة. 

2. تحديد المداخل المتشابهة. 

3. إعداد وصف دقيق للمداخل. 

4. إزالة أو تحليل حجم الغموض عند التفسير. 

وبالطبع لا يمكن لطريقة واحدة أن تحقق كل المتطلبات اللازمة لعملية التمثيل» 
حيث إن إحدى نقاط الضعف في طريقة ماء قد تكون ميزة كبرى في طريقة 
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أخرى. لذلك فالتكشيف وحده مثلاً من الممكن أن يوضح الموضوعات المحددة 
التي تعالجها الوثيقة». إلا أن المستخلص يوضح مضمون الوثيقة ككل. لذلك فإن 
التعددية فى الأساليب والطر Methodological Pluralism J‏ تعد أفضل الوسائل 
لتمثيل المعلومات بدقة وكفاءة. فالمزج بين طرق التمثيل المختلفة مثل التصنيف 
والاستخلاص والتكشيف والتوسيم يمكن أن يحقق العديد من المزايا التي تفوق 


استخدام طريقة واحدة. 


ويوجد تطور سريع في استخدام الأساليب الحديثة المصاحبة للجيل الثاني للويب 
الذي cle Late‏ مشاركة الفسغيد فى عمليات التطوير والبناء مكل التلخيضن الوافي 
للمحتوى أو التوسيم 8 155 وذلك بغرض تحقيق الاحتياجات الجديدة 
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مصادر البيانات 


بنظم تمثيل المعرفة 


4 4 مقدمة 


يتناول هذا الفصل مصادر البيانات المرتبطة بعمليات تمثيل المعلومات والمعرفة» 
حيث سيتم مناقشة أنواع البيانات وفئاتها والميتاداتا وطرق تمثيلها والنصوص الكاملة» 
والبيانات المستخدمة فى تمثيل الوسائط المتعددة. 


> 4.1 أنواع البيانات 


يتم تقسيم البيانات إلى ثلاثة أنواع أساسية هی كالتالى: غير مهيكلة «Unstructured‏ 
شبه مهيكلة semistructured‏ مهيكلة structured‏ (محمد وآخرون» 2018). ولكل نوع 
من تلك الأنواع الثلاثة إطار تحدده الوظائف التي يسعى لتحقيقها. تظهر البيانات 
غير المهيكلة في صورة غير نمطية ليس لها شكل أو حجم محدد» حيث إنها كيانات 
ليس لها إطار COU‏ يجمعها أو شكل موحد. وعلى الطرف الآخرء تظهر البيانات 
المهيكلة فى صورة نمطية من خلال أطر محددة» فهى عبارة عن بيانات لها نمط 
ثابت بحيث يمكن تخزينها في قاعدة بيانات وكل عنصر بيانات منها له شكل وإطار 
نمطي مميز. وسيتم فيما يلي مناقشة الأنواع الثلاثة للبيانات. 


< 1 البيانات غير المصيكلة 
Unstructured Data‏ 
تتميز هذه النوعية من البيانات بأنها ليس لها بناء أو نمط أو شكل ثابت» كما 


Sigel‏ اليانات pall‏ فردفى E E oy all‏ الفيديي الرسائل الالكتروبة 
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العروض التقديمية» التعليقات على صفحات التواصل الاجتماعي» الصور.. الخ. 
فعلى سبيل المثال أي صفحة ويب يتم إعدادها بلغة HTML‏ تعد مثالا واضحا 
للبيانات غير المهيكلة. وعادة ما يكون من الصعب تخزين هذه النوعية من البيانات 
في قاعدة بيانات مهيكلة. إلا إذاتم وضعها ككيانات ثنائية كبرى Binary Large)‏ 
Objects (BLOBS‏ وعلى الرغم من أن البيانات غير المهيكلة قد يكون لها في بعض 
الأحيان شبه هيكل أو بنية كما هو الحال في رسائل البريد الإلكتروني التي يكون لها 
عنوان مرسل ومستقبل» وموضوع.. إلخ» كما أن صفحات الويب أيضاً تشتمل على 
مجموعة من الأكواد المحددة مسبقاًء إلا أن المعلومات Y‏ يتم تخزينها سواء في جسم 
رسالة البريد الإلكتروني أو في متن صفحة الويب بطريقة يمكن من خلالها تصنيف 
العغلومات يشكل piled ty‏ الإلكترونية أو قواعد البيانات المهيكلة. 


> 4.1.2 البيانات شبه المهيكلة 
Simi Structured Dta‏ 


تقع تلك النوعية من البيانات في منطقة وسط بين البيانات المهيكلة والبيانات 
غير المهيكلة. وهي بيانات منتظمة إلى حد ماء من حيث المحتوى» ولكنها غير 
منتظمة في هيكلها بصورة كاملة وصارمة» كما هو الحال في البيانات المهيكلة. 
farts‏ على بيانات غير منعظمة يضم Lady Lead‏ لأساليب ناء تحددة مسقا ما 
يساعد على وصفها Lii y‏ لخصائص محددة تسمح بالبحث فيها باستخدام آليات 
عامة ولخدمة أغراض عامة. 

وعادة مايتم تنظيم البيانات شبه المهيكلة في صورة كيانات» بحيث يتم تجميع 
SLL‏ المنشابية ما إلا آنه لين شرطا of‏ تعمل س الكياشات Sada‏ 
متشابهة» كما أنه ليس من الضروري أن يتم ترتيب محددات البيانات في نفس 
المجموعة أو الحقول. 

ومن أبرز أمثلة البيانات شبه المهيكلة السير الذاتية التي Y‏ يوجد لها شكل نمطي 
أو معياري. فمن الممكن أن يبدأ أحد الأشخاص yas‏ الذاتية EAE os‏ 
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السابقة التي شغلهاء ثم يعرض الشهادات التي حصل عليه» ثم الأبحاث التي قام بها. 
ويمكن لشخص آخر أن يبدأ سيرته الذاتية بالشهادات التي حصل عليهاء ثم يعرض 
الوظائف التي شغلهاء ثم يعرض المهارات والخبرات» ولا يخصص جزءا للأبحاث 
والدراسات» Ley‏ يهتم الأول بوضع جزء خاص للبحوث والدراسات. من هنا يمكن 
القول إن البيانات شبه المهيكلة عادة ما تضع البيانات في عناصر بيانات دون تحديد 
صارم لمحتوى وهيكل وترتيب البيانات. 


وتعد لغة التكويد الموسعة"“ XML‏ أبرز وسيلة لوضع البيانات شبه المهيكلة 
في صورة نمطية» حيث إنها معيار واقعي (مصطنع) Defacto‏ يستخدم في وصف 
الوثائق المتفقة في بعض العناصر وفي شكل البناء» ما يجعل منها نموذجا دوليا 
OLLI dal‏ على الويب ونين فسات الأغمالاء petty‏ ل التكوييد in yall‏ 
عملية بناء وتطوير الوثائق شبه المهيكلة؛ والتي تشتمل على كل من بيانات الميتاداتا 
والنصوص ذات الشكل شبه النمطي. l‏ 

ويتم تحديد بيانات الميتاداتا باستخدام أكواد لغة التكويد الموسعة. من ثم فإن 
لغة XML‏ توفر طريقة واضحة وظاهرة لمعالجة البيانات شبه المهيكلة» حيث تعتمد 
تلك اللغة على محدد نوع الوثائق DTD O‏ أو XSD©‏ كنماذج لتعريف البيانات شبه 
المهيلكة وعرضها باستخدام اللغة. 


< 3 البيانات المهيكلة 
Structured Data‏ 


البيانات المهيكلة هي عبارة عن بنيات صارمة من حيث الشكل والحجم» 
ويتم وصف كياناتها بمحددات ثابتة ومحددة» ويتم تنظيمها في صورة تسجيلات 





XML: eXtensible Mark Up Language (1) 
DTD - Document Type Defination محدد نوع الوثيقة‎ (2) 
(XSD) XML Schema Definition (3) 
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البيانات المهيكلة في حقول البيانات التي تستخدم في وصفهاء ويتم تجميع 
وتنظيم البيانات في صورة كيانات تساعد على تجميع البيانات المتشابهة في 
مجموعات باستخدام العلاقات Relations‏ والأقسام 8 . وتحمل الكيانات 
المتشابية فى تقس Clot‏ بث تتشابه كل الكانات التي Legend‏ منظرمة 
وصف البيانات Scheme‏ في شكل البيانات» ويكون لها طول محدد مسبقاً وتتبع 
ترتيباً موحداً. وتعد البيانات المهيكلة من أوائل أنواع البيانات التي تم استخدام 

وقد تم تطوير قواعد البيانات العلائقية لبناء مستودعات بتلك النوعية من البيانات 
منذ المراحل الأولى لميكنة العمل في المؤسسات. وفي الآونة الأخيرة بدأت أنظمة 
أكثر تطو 7 مثل إدارة علاقات العملاء Customer Relationship management‏ 
وتخطيط موارد الشركات Enterprise Resource Planing (ERP)‏ ونظم إدارة 
المحتوى (CMS) Content management system‏ تعتمد على البيانات المهيكلة 
كنموذج أساسى لمعالجة بياناتها. 

وتجدر الإشارة إلى أن عملية تمثيل البيانات في نظام استرجاع المعلومات تتعامل 
مع ثلاثة أنواع أساسية من البيانات وهي: الميتاداتا بأنواعها المختلفة والنصوص 
الكاملة» والوسائط المتعددة. وفيما يلي سيتم مناقشة آلية التعامل مع كل نوع من 
هذه الأنواع والتحديات التي تواجه عملية التمثيل والحلول المتاحة لذلك. 


Metadata الميتاداتا‎ 4.2 > 


تم صك مصطلح الميتاداتا لأول مرة في عام 1990 للإشارة إلى عمليات وصف 
المعلومات الرقمية المتاحة من خلال شبكة الإنترنت» ما أدى إلى ظهور العديد من 
معايبر الميتاداتا التي تم تطبيقها في تمثيل وتنظيم مصادر المعلومات المتشابكة. 
ثم توسع استخدام المصطلح بصورة كبيرة ليشمل كل ممارسات تمثيل وتنظيم 
المعلومات» خاصة مع زيادة الاعتماد على شبكة الإنترنت حتى أضحت المنصة 
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الرئيسة لإنتاج وتمثيل وتنظيم وإتاحة المعلومات الرقمية منذ نهايات القرن العشرين 


(عبد الهادي» محمد» 2015). 


> 4.2.1 مفصوم الميتاداتا 


يمكن تعريف الميتاداتا بأسلوبين مختلفين؛ الأول ضيق في مجاله» حيث يركز 
على المعلومات الرقمية ويشير إلى وصف مصادر المعلومات الرقمية والمتشابكة 
باستخدام نموذج معياري مثل معيار (دبلن المحوري (Dublin core‏ والذي تم 
إعداده خصيصاً لهذا الغرض. والتعريف الآخر أوسع في تغطيته» حيث يشمل كل 
عمليات تنظيم المعلومات (الفهرسة:» التكشيفه التقسيم إلى ففات.. الخ)ء والتي 
يتم إعدادها لأي نوع من أنواع الوثائق سواء بالطرق التقليدية أو غير التقليدية. وفي 
هذا السياق يمكن النظر إلى بيانات الفهرسة التي يتم إعدادها باستخدام قواعد 
الفهرسة مثل قواعد الفهرسة الأنجلوأمريكية أو قواعد وصف وإتاحة المصادر أو 
خطة تصنيف ديوي العشري أو الفهرسة المقروءة آلياً باستخدام شكل الاتصال 
(MARC (Machine Readable catalog‏ على أنها جميعها نظم ميتاداتا (عبدالهادي 
& محمد» 2015( 


ومن الممكن أن يتم إعداد بيانات الميتاداتا من خلال المؤلف أو منشئ الوثيقة أو 
أخصائي الميتاداتا أو مدير المستودع أو جهة خارجية تعمل كطرف ثالث Third Party‏ 
(Dempsey & Heery, 1998‏ وأحيانا يتم زرع بيانات الميتاداتا في صفحات الويب 
باستخدام أكواد لغة النصوص الفائقة -Hypettext Markup Languege - HTML‏ 
ويرى وول (Wo01,1998)‏ أنه على الرغم من أن الميتاداتا تتيح نموذجا فعالا لوصف 
وتمثيل المعلومات الرقمية المتاحة فى بيئة الإنترنت» إضافة إلى الأنظمة التقليدية 
مثل التصنيف والفهرسة uad SN Ye aes‏ امتداد لهذه الأنظمة التقليدية. 
فا هرا E‏ الطرق Gil‏ ل لے عادر ارات اا ied‏ 
المتاحة على الإنترنتء نظرا للملامح الخاصة التي تتميز بها تلك المصادر والتي 
سيتم عرضها في الجزء التالي. 
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> 4.2.2 ملامح مصادر المعلومات الرقمية المتاحة على الإنترنت 


تتميز مصادر المعلومات الرقمية بمجموعة من الملامح الخاصة التي تميزها عن 
المصادر المطبوعة تشمل (محمد» 2013): 


٠‏ أنها تتطلب توافر تجهيزات خاصة تشمل المكونات المادية والبرمجيات 
اللازمة لعرض المحتوى الرقمي. 

ه٠‏ أن الشكل Format‏ الذي يتم تسجيل المعلومات الرقمية عليه يتغير بصفة دائمة 
كتتيجة لسرعة تحديث المكونات المادية والبرمجية» ما يتطلب معه إجراء 
تهجير للبيانات Data Migration‏ من الشكل القديم إلى الأشكال الحديثة» 
حيث إنه كثيرا ما يحدث عدم توافق بين الإصدارات المختلفة لنفس البرنامج» 
وتصبح قضية التوافق أكثر سوءا عندما يتم تجميع المعلومات الرقمية باستخدام 
برنامج لتجميع النصوص وآخر للأشكال والجداول وثالث للصور.. إلخ. 

e‏ يتم بناء مصادر المعلومات الرقمية باستخدام نمط البناء المعتمد على الهيكل 
فائق الربط Hyper structure‏ والذي يختلف تماما عن البناء المسطح Flat‏ 
Structure‏ للمصادر المطبوعة» ما يجعل من نمو المعلومات وترابطها أمرا 
من الصعب التحكم فيه. وقد ساعد التقدم الكبير في تطبيقات الإنترنت على 
تيسير عمليات التواصل والمشاركة بين البشر» لكن ذلك نتج عنه عدم وجود 
منظومة محكمة لضبط جودة المعلومات والذي ينتج عن الفيضان الهائل من 
المعلومات المتنوعة من حيث مدى جودتها وإمكانية الاعتماد عليها. لذلك 
يجب تطبيق طرق متنوعة لتنظيم وتمثيل مصادر المعلومات الرقمية تتوافق 
مع طبيعة تلك المصادرء حيث إن الأساليب التقليدية وخطط التصنيف 
وقواعد الفهرسة LS pel eV‏ والفهرسة المقروءة آلياء تم تطويرها قبل 
ظهور هذا الكم الهائل من المعلومات الرقمية وتم تصميمها في الأساس 
لوصف وتمثيل مصادر المعلومات المطبوعة. ومن ثم يمكن القول إن 
الميتاداتا تم تطويرها لكي تحل مشكلة تمثيل مصادر المعلومات الرقمية التي 
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يتم تصميمها بالاعتماد على الربط الفائق» ويتم تغيير محتواها بصفة دائمة» 
افا إلى ea Lgl‏ جزدلهدا وهائلة فى Agate‏ 


> 4.2.3 نماذج لمعايير الميتاداتا 


على الرغم من أن مصطلح المتياداتا هو مصطلح جديد في مجال تمثيل 
المعلومات» فقد تم تطوير عدد كبير من معايير الميتاداتا منذ نهاية القرن الماضي 
وجار تطوير غيرها من المعايير» ويعد كل من معيار دبلن المحوري وإطار وصف 
المصادر Resourse Description framework (RDF)‏ أهم النماذج المستخدمة في 
هذا الإطار (عبدالهادي & محمد 2015( 


وكما أشرنا من قبل» نشأت معايير الميتاداتا أساساً بغرض وصف وتنظيم 
المعلومات في البيئة الرقمية. ومع الأخذ في الاعتبار طبيعة مصادر المعلومات 
الرقمية ومضادر SY‏ تت وفى هذا i LEY‏ جد Le pores‏ من الستاؤلات الأساسة 
التي تحتاج إلى إجابات واضحة هي كالتالي: 


> 4.2.4 أصمية الميتاداتا في البيئة الرقمية؟ 


تعتمد عمليات تمثيل المعرفة في البيئة التقليدية لمصادر المعلومات المطبوعة على 
أعداد تسجيلة ببليوغرافية تشتمل على عناصر الوصف لكل مصدر من مصادر المعلومات؛ 
سواء كان بمجموعات مكتبة معينة أو بقاعدة بيانات. ويتم تنظيم تلك التسجيلات كبدائل 
لمصادر المعلومات تستخدم في عمليات البحث والاسترجاع» إلا أن الممارسة نفسها غير 
قابلة للتطبيق مع المعلومات الرقمية المتاحة على الإنترنت للأسباب السابق ذكرهاء لذلك 
ظهرت مجموعة من التساؤلات تتعلق بتمثيل وتنظيم مصادر المعلومات الرقمية. 

السؤال الأول يتعلق بشكل التمثيل والقواعد التي يتم استخدامها في عمليات 
التنظيم والوصف» وحيث إن إعداد بديل تقليدي للمصدر الرقمي» كما هو الحال 
في المصادر المطبوعة لم يعد We‏ مناسباًء فما هو الشكل الملائم لتمثيل المصادر 
الرقمية والقواعد التي يجب تطبيقها؟ 
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كما ظهر سؤال آخر مرتبط بالمشكلة نفسهاء وهو من سيقوم بإنشاء الميتاداتا؟ 
فى البيئة الرقمية وخاصة الإنترنت. فالعمر الافتراضى للمصدر الرقمى يعتمد بصورة 
كبيرة على إتاحه وتوافر التكنولوجيا اللازمة لتشغيله» سواء كانت مكونات مادية أو 
برمجية والمستخدمة فى إنشائه أو إتاحته. 


والسؤال الثالث في هذا الإطار مرتبط بالتطور السريع لتكنولوجيا المعلومات 
الذي يصحبه ضرورة التأكد من أن المصدر الرقمي بمجرد وصفه يمكن الوصول 
إليه واسترجاعه خلال العمر المتوقع له ففي بيئة مصادر المعلومات المطبوعة» يظل 
المحتوى ثابتاً دون تغيير» وأي تغيير يأخذ شكل إصدارة جديدة. أما في البيئة الرقمية 
فإن المحتوى الخاص بكل وثيقة من الممكن تغييره وبشكل دائم» من ثم لا يمكن 
التمييز بين الإصدارات المختلفة» بالتالي كيف يمكن التعامل مع الطبيعة الديناميكية 
لتلك المصادر عند إغداد الميتاداتا الخاصة بها؟ 


وكما ذكرنا WL‏ يوجد العديد من معايير الميتاداتا التي تستخدم في تمثيل 
الكيانات الرقمية في بيئة الإنترنت» وفي الوقت نفسه توجد المعايير التقليدية التي 
تم استخدامها في تمثيل المعلومات عبر العصور مثل قواعد الفهرسة ونظم التحليل 
معايبر الميتاداتا مع غيرها من معايير الوصف سابقة الذكر. 


وقد ناقش كل من ديمبسي وهيري (Dempsey & Heery,1998)‏ هذه القضية وأشارا 
إلى أن مجتمع المعلومات يسعى إلى تحقيق التكامل بين البيئة التقليدية والبيئة الرقمية من 
خلال ابتكار معايبر أكثر شمولاً تستطيع الربط بين المصادر في البيتتين. ولعل إحدى هذه 
المحاولات هي تجربة شبكة" OCLC ’s‏ لتطوير نظام ديوي العشري باستخدام أداة مثل 
5 والتي تقوم باشتقاق المفاهيم الجديدة والمستجدة والمصطلحات الناشئة من 
النصوص الرقمية وربطها بخطة تصنيف ديوي العشري .(Vizine - Goetz,1997)‏ كما أن 





OCLC - Online Computer Library Center (1) 
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أبرز جهود التطوير فى هذا الاتجاه هو تطوير معايير وصف المصادر وإتاحتها Resrource‏ 
Description and Access‏ التي تسعى إلى وضع آلية وصف جديدة لمصادر المعلومات 
تراعي متطلبات الوصف في البيئة الرقمية والتقليدية على حد سواء» كما تراعي متطلبات 
الربط بين مصادر المعلومات بصفة .(Wang,2007) dole‏ 


وإضافة إلى كل ما ذكر سابقاًء تبقى قضية التشغيل التبادلي إحدى al‏ القضايا 
التي تحظى بالاهتمام في الوقت الحالي Rowley & Hartely,(2008)‏ ويشير التشغيل 
التبادلي إلى قدرة أكثر من نظام؛ لكل منها منصته وواجهة مستفيدين وبنية وهيكل 
بيانات خاص به» على تبادل ومشاركة البيانات بأقل درجة ممكنة من فقدان المحتوى 
أو ضعف الأداء الوظيفى )1998 (ZHANG,‏ 


وقد ناقش كل من زينج وتشان )2004 (Zeng & Chan,‏ قضية Ly‏ أدوات التشغيل 
التبادلي بنظم إدارة المعرفة التي عادة ما تستخدم معايير ميتاداتا متنوعة. ومن الواضح 
أنه ليس من السهل تحقيق التشغيل التبادلي» على الرغم من الجهود الكبيرة التي 
بذلت فى هذا الاتجاه. علاوة على EUS‏ فإن كل معيار من معايير الميتاداتا له ملامحه 
الخاصة وقضاياه المستقلة. فعلى سبيل المثال عند التعامل مع محدد الكيان الرقمي 
تخصيص المحدد؟ هل يجب تحديد أكثر من محدد كيان رقمي لكل شكل جديد أو 
إصدارة جديدة من نفس العمل؟..إلخ. 


وتجد الإشارة إلى أن الأسئلة التي تم طرحها هنا ليست بأي شكل من الأشكال 
شاملة لكل التحديات التي نواجهها عند التعامل مع قضية تمثيل البيانات الرقمية في بيئة 
الإنترنت بالاعتماد على معايبر الميتاداتا. كما أنه لا توجد خطة للتعامل مع تلك التساؤلات 
والاهتمامات وتوجد العديد من الممارسات الجديدة فى تطبيق وإعداد الميتاداتا للمصادر 
الرقمية مثل الوصف الانتقائي Description‏ 8 جداول التحديث والأرشفة 
المخططة Planned Archiving‏ ومع ذلك يمكن القول إن الميتاداتا رغم كل هنا cl‏ ميخ 
تساؤلات حول الممارسات الحالية أو المستقبلية التي يمكن أن تتغير, إلا أنها الطريقة 
المثلى لتمثيل الكيانات الرقمية» والتي تيسر عملية استرجاعها بكفاءة وفاعلية. 
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> 4.3 النصوص الكاملة 
Full Text‏ 

يعد تكشيف النصوص الكاملة وإتاحتها للبحث والاسترجاع أحد أهم أهداف 
نظم تمثيل واسترجاع المعلومات. وقد واجهت عمليات تكشيف النصوص الكاملة 
صعوبات عدة مع بدايات تطيبق الحاسبات في بناء وتطوير نظم النصوص الكاملة 
لعل أبرزها: الكلفة الباهظة لكل من مساحات التخزين ووقت التشغيل اللازمين 
للتعامل مع الكم الكبير من المعلومات التي يتم تخزينها ومعالجتها. وقد اعتمدت 
معظم النظم في بداياتها على توظيف بدائل النصوص الكاملة المتمثلة في قواعد 
البيانات الببليوجرافية والكشافات» بحيث يمكن إتاخة تلك المواد لأغراض البحث 
والاسترجاع. أما اليوم فقد أصبح من الممكن الاعتماد على جهاز حاسب شخصي 
في تخزين النصوص الكاملة بسهولة ومعالجتها بسرعة فائقة» لم يعد ذلك رفاهية في 
البيئة الرقمية» بل أصبح ضرورة ملحة مع النمو السريع في حجم المعلومات الرقمية 
التي يتم إنتاجها ley‏ وضرورة إتاحتها للبحث الآني. 


> 4.3.1 تمثيل معلومات النصوص الكاملة 


أدى التطور الملموس في عمليات التخزين الرقمي إلى تحسن كبير في مستويات 
معالجة النصوص الكاملة )€1,1992 (Meadow, et,‏ وعلى الرغم من ذلك فإن 
تمثيل معلومات النصوص الكاملة لتيسير عملية الاسترجاع لا يحتاج إلى «واصف 
JaJ Descriptor‏ کلمة)» ولا تكشيف أو بناء كشاف (Fugmann,1993)‏ سواء کان 
غير مرئي أو كتمثيل للنص الكامل نفسه. فعملية تمثيل النصوص الكاملة تشبه في 
خصائصها عملية التكشيف الاشتقاقي من خلال توظيف قوائم الكلمات المستبعدة 
Stop Lists‏ وجذع الكلمات Stemming‏ وغيرها من التقنيات والآليات المشابهة. وقد 
وصف لوهان )1960 (Luhn,‏ عملية تمثيل النصوص الكاملة بأنها عملية تكشيف 
الكلمات المفتاحية وتتم بصورة آلية. وتعتمد معظم نظم الاسترجاع الشهيرة المتاحة 
على الإنترنت» مثل جوجل وغيره من المحركات» على أسلوب تكشيف الكلمات 
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من ثم فإن تمثيل النصوص الكاملة لإتاحتها للبحث والاسترجاع يعد أحد 
الأساليب الأساسية لتمثيل المعلومات بقواعد بيانات النصوص الكاملة» ولكي تتم 
تلك العملية لابد أن يتميز محرك البحث بوجود أداة تكشيف للنصوص تستطيع 
التعرف إلى الكلمات المفتاحية المهمة الواردة بالمادة التي يتم تكشيفها بالاعتماد 
على خوار زميات معينة وقوائم للكلمات التي يتم استبعادها من عمليات التكشيف. 


> 4.3.2 صعوبات تمثيل النصوص الكاملة 

على الرغم من المزايا العديدة التي يمثلها تكشيف النصوص الكاملة من وجهة 
نظر المستفيد فإن الناتج النهائي عادة ما يكون معقداً وضخماًء ما يؤدي إلى انخفاض 
معدلات الاستدعاء» والذي يشير إلى عدد النتائج الصالحة المسترجعة في مقابل عدد 
النتائج الصالحة في النظام بأكمله. ولعل أبرز مثال على ذلك» حجم النتائج التي يتم 
استرجاعها من خلال محركات بحث الإنترنت» فعادة ما تسترجع محركات بحث الويب 
في عملية البحث الواحدة على الأقل عدة آلاف من المواقع يصلح منها عدد محدود 
جداً للإجابة عن استفسار المستفيد. وقد أشار فوجمان )99 Fugmann, 1993 P‏ فى 
هذا السياق إلى «أن عمليات تخزين النصوص الكاملة تحتاج إلى مساحات تخزين كبيرة 
من جانب الآلات المستخدمة في البحث» ولكن أيضاً يتطلب صبراً من جانب المستفيد 
لمعالجة الكم الكبير من النتائج المسترجعة». 


فاسترجاع النصوص الكاملة» كما سنوضح لاحقاًء هو أحد نماذج تمثيل واسترجاع 
المعلومات الذي تطور بفضل التطور التكنولوجي الهائل. وعلى الرغم من ذلك فإن جودة 
في حجم النتائج غير الدقيقة التي يتم استرجاعها من خلال محركات بحث الإنترنت. 

وتعتمد الحلول المستقبلية للتغلب على تلك المشكلات على التطور في مجال أبحاث 
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المهام الأساسية التي يجب أن تعمل تلك الأبحاث على تحقيقها ما يلي :(Knight,1999)‏ 


٠‏ التطوير في عمليات إعراب الجمل الذي يساعد على تحديد البناء الدلالي 
للجمل والعبارات. 


ومن المعروف أن نظم استرجاع المعلومات التي تعمل بصورة آلية لا تتعامل 
مع المعلومات غير النصية مثل الأشكال والجداول )1993 .(Fugmann,‏ لذلك 
اهتم قطاع من الباحثين والشركات LAS‏ معالجة معلومات الوسائط المتعددة مثل 
الصوت والصور المتحركة المتاحة في صورة رقمية. وسوف يتم استعراض ذلك في 
الجزء التالي. 


> 4.4 تمثيل معلومات الوسائط المتعددة 


يوجد نمو هائل في حجم معلومات الوسائط المتعددة في البيئة الرقمية» حيث 
أدى التطور الكبير في آليات إنتاج المعلومات على الشبكة العنكبوتية العالمية إلى 
تيسير إتاحة تلك النوعية من المعلومات عن ذي قبل. كما أدى ازدهار أساليب إتاحة 
الوسائط المتعددة على الويب إلى ظهور تحديات كبيرة وجديدة لمجال تمثيل 
واسترجاع المعلومات. 


> 4.4.1 أنواع معلومات الوسائط المتعددة 


الوسائط المتعددة هي أي مزيج من الصوت والصور والمعلومات النصية» سواء 
كانت الصور ثابتة أو متحركة. وعادة ما يتم استخدام مصطلحي الصوت Sound‏ 
والمواد المسموعة Audio‏ كمترادفين» وأحيانا ما يستخدم المصطلح وثيقة منطوقة 
Spoken Document‏ للإشارة إلى المعلومات النصية المسجلة (مثل الخطابات 
والمحادثات) والتي يطلق عليها الآن المواد المسموعة. وفيما يتعلق بمعلومات 
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الصورء فإن الصور الثابتة تشير إلى الرسومات والصور الفوتوغرافية والملصقات 
Posters‏ . إلخ» والصور المتحركة التي قد تمتزج أو لا تمتزج بالصوت. ويشار إلى 
الصور المتحركة التي لاتشتمل على صوت بالرسوم المتحركة Animations‏ أو الأفلام 
الصامتة Silent Movies‏ ويطلق مصطلح الوسائط المتعددة على الصور التي تمتزج 
بالصوت (الأفلام أو الفيديوهات)» ومن الممكن أن يظهر الصوت ممزوجا بالنص 
كتعليقات على الصور Annotation‏ أو ترجمة» كمايظهرالنص في الصور كشرح 


Subtitles أو عناوين فرعية‎ Caption 


ويوضح الشكل رقم (4.1) تشريحاً تفصيلياً لأنواع مصادر المعلومات المتاحة في 





صورة وسائط متعددة: 
الفيديوهات 
والأفلام المتحركة 
= 
الرسوم المتحر As‏ 
| شب 


العناوين xs‏ افرعية 


co‏ ج 
النص الكامل 


الترجمة 


الصوت 
T‏ 








شكل رقم )4.1( تشريح لمصادر ols gles‏ الوسائط المتعددة 





الفصل الرابع 


> 4.4.2 أساليب تمثيل الوسائط المتعددة 


اعتمد تمثيل الوسائط المتعدده فى الماضى» على أساليب الوصف التقليدية التى 
تبط ll‏ الرس الروت مكل اسم المي pall am‏ ةا قات 
والعناوين الفرعية والكلمات المفتاحية..الخ. وقد كان هذا الأسلوب الأساسي المستخدم 
في فهرسة المواد السمعية والبصرية بالمكتبات ومؤسسات المعلومات. وعلى الرغم من 
أن غملية [ores‏ الوسائط المتعددة تمد دائما على التدمل البشتريء إلا أنه مازال هناك 
قصور في جودة المنتج النهائي. ومن بين الأسباب التي تؤدي إلى ذلك أنه مازال من 
الصعب وصف الوسائط المتعددة بصورة صريحة وموضوعية. فعلى سبيل المثال كيف 
يمكن وصف صورة شروق الشمس أو غروبهاء أو قطعة موسيقية هادئة أو حتى صاخبة 
باستخدام مصطلحات تعبر عن محتواها بشكل صريح» إضافة إلى ذلك كيف يمكن 
تحقيق الاطراد والدقة فى عملية التمثيل لمعلومات الوسائط المتعددة بالاعتماد على 
ob ged pall pad gl‏ الى تضبق Ty‏ قير انين SUN‏ والآزاء الخصية: 


لقد تم تطوير أسلوب التمثيل المستند إلى المحتوى Approach Content Based‏ 
لتمثيل الوسائط المتعددة من خلال خصائصها مثل لون الصورة» النغمات الصوتية» 
وذلك للتغلب على القصور og ally‏ الني يفرضها الأسلوب المستد إلى الوصف 
Description Based Approach‏ السابق ا واعتمد تطوير آليات التمثيل المستند 
إلى المحتوى من خلال تطوير تقنيات تستطيع وصف المحتوى مثل التعرف الصوتي 
Speech Recognition‏ والتعرف النمطي Pattren Recognition‏ و فهم الصور Image‏ 
Understanding‏ والتي تستخدم في وصف وتحليل الوسائط المتعددة لأغراض التمثيل. 


ويعد هذا التوجه رمزاً لتغيبر نماذج تمثيل الوسائط المتعددة» فإذا كان نموذج 
التمثيل المستند إلى وصف الوسائط المتعددة يتم إنجازه من خلال المعلومات 
الوصفية وبطريقة يدوية مثل المنشى» وسنة الإنتاج والحجم..» ومعلومات المحتوى 
من خلال (الكلمات المفتاحية ورؤوس الموضوعات». فإن التمثيل المستند إلى 
المحتوى يعمتد على تحليل خصائص ومحددات الوسائط المتعدده مثل ألوان 
الصورء النغمات الصوتية.. إلخ. 
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وتشتمل خصائص الوسائط المتعددة على أوجه متنوعة» لعل أبرزها الخصائص 
المشتركة للصور الثابتة Ste‏ اللونء الشكل» النصوص: والتى يمكن تفصيلها وتحليلها 
أكثر من خلال خصائص مثل الاتجاهية tll Directionality‏ ائية «Randomness‏ 
التماسك Robustness‏ التضاد Contrast‏ وغيرها. 


أما المعلومات الصوتية فيمكن تحليل خصائصها إلى مجموعة من المعاملات 
تشمل السرعة والنغمات والتترات» بحيث يمكن استخدامها في عمليات التمثيل. 
وتمثل هذه الملامح الأساسية عن الوسائط المتعدده الحد الآدنى من المعلومات 
التي يمكن اشتقاقها آلياً أو بطريقة شبه آلية» والتي تحد أو تقلل بقدر كبير من الحاجة 
إلى التدخل البشري الذي مازال مكلف وغير مرغوب في عملية تمثيل الوسائط 
المتعددة بدرجة كبيرة. 


وتعتمد آليات تمثيل الفيديو والصور والرسوم المتحركة على مجموعة من الخصائص 
تشبه تمثيل الصور الثابتة والأصواتء إلى جانب اتخاذ إجراءات التقطيع أو التجزئة 
للملف Segmentation‏ . وقد قامت شو )2001 (Chu‏ بالمقارنة بين هذين الأسلوبين 
لتحديد أيهما أكثر استخداماً في البحوث والتطبيقات» حيث قامت بتحليل الاستشهادات 
المرجعية للإنتاج الفكري المنشور في مجال تكشيف واسترجاع الصورء وتوصلت إلى 
أن التطبل المسسد إلى Gp teal‏ قد سيطر على الدراسات والتطبيقات فى هذا المجال 
في السترات الأغيرة phe Lay‏ إلى أن السب الرئيس ورام ذلك هو التحقية GU‏ 
يتضمنه تطبيق أسلوب التمثيل المستند إلى الوصف في مقابل التطور التكنولوجي الهائل 
في آليات دعم التمثيل المستند إلى المحتوى» الذي أدى بدوره إلى تيسير عمليات 
التحليل واستخلاص المعلومات الدالة على المحتوى. ومع ذلك فإن نتائج شو تشير 
إلى أن تيل الوسائط المتعددة المستعد إلى المحتوى لا يمك ن أن [ta‏ الأسلوب الوحييد 
في المستقبل» على العكس من ذلك فإن أسلوب التمثيل المستند إلى الوصف إذا تم 
تطبيقه بطريقة فعالة (أقل كلفة) وأكفر اطراداً وموضوعية فإنه قد يساعد بصورة كبيرة 
على تحقيق الجودة في تمثيل معلومات الوسائط المتعددة لذلك فإن النموذج الأمثل هو 
المزج والتكامل بين الأسلوبين في تمثيل الوسائط المتعددة. 
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> 4.4.3 تحديات تمثيل الوسائط المتعددة 


إلى جانب ما سبق ذكره من مشكلات Lad ya‏ يعمقيل الوسائط المتعدذة؛ فإن 
مشكلات تجزئة الصور المتحركة Moving Image Segmentation‏ وتحليل bs!‏ 
والمحادثات Speech Parsing‏ أو الصوت مازالت تمثل تحديات أساسية فى مجال 
تكبا الوسائط adi‏ اة ف الور اله كنة موعن اا تر 
فك الصور المتحركة إلى وحدات (مثل تشغيل الكاميراء لحظات الصمت) بمعنى 
الفواصل بين عناصر العمل. 

کا تحليل الكادرات الأساسية Key Frames‏ التي تشمل الكادرات التي 
تتضمنها كل لقطة Shot‏ والتي يتم استخدامها كأساس لتحليل المحتوى وتمثيله 
(Zhang, et. al., 1995)‏ وتوجد أساليب Le gre‏ تشمل تقنيات وخوارزميات لتجزئة 
الصور المتحركة» ويظل جوهر تلك العملية واحداً في كل تلك الأساليب» حيث 
يعتمد على تقسيم الصور المتحركة إلى كيانات صغيرة تحمل دلالات من ثم يمكن 
تحليلها وتمثيلها بتساو وتوازن ودقة. 

وتعتمد عملية تجزئة الخطاب Speech Segmentation‏ على تقطيع الخطاب 
الكامل إلى فقرات وجمل وعبارات وكلمات» بحيث يمكن تحديد محتواه 
الموضوعي وتمثيله. ومن الصعب تحديد معايير خاصة بطريقة بناء الصور المتحركة 
أو المعلومات الصوتية:» نظراً للطبيعة الخاصة والمعقدة المرتبطة بهما. ذلك أن الصور 
المتحركة سعمرة فى الزمن والمساحة ولا يمكن داقما الاعقماه على eel gill‏ بين 
كادرات الكاميرا المتصلة Consecutive Camera Shots‏ وتجزئتهاء لأنه أمر صعب» 
كما أن الخطابات الصوتية لا تتضمن أي علامات ترقيم أو فواصل بين الجمل 
والكلمات أو غيرها من العلامات التى تساعد على عملية التجزئة» كما هو الحال فى 
الا EO O E le essai‏ دة l‏ 


ومن أبرز أمثلة الصعوبات التى تواجه عملية التمثيل المواقف والإشارات التى 
تتضمنها المواد الصوتية مشل لحظات الصمت (أصوات التنفسء تلعثم اللسان» 
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الهمهمات..إلخ) عدم الطلاقة في الكلام (مثل الكلمات المنفصلة عن أي سياق» 
التوقفات Pauses‏ التردد وتغيير الكلمات أو العبارات)» وكلمات إضافة أحداث 
وأمثلة مثل (وإضافة إلى وعلى سبيل المثال..إلخ)» وبسبب كل هذه التحديات 
والصعوبات فإن عملية التدخل البشري في الوصف الدقيق للوسائط المتعددة مازالت 
ضرورة ملحة حتى مع النظم التي تعتمد على التمثيل المستند إلى المحتوى» وما 
زالت هناك حاجة إلى مزيد من الدراسات والبحوث في هذا الاتجاه بغرض تحقيق 
الدقة والشمول والجودة في المعالجة والتمثيل. 

وتجدر الإشارة بصفة عامة إلى أنه يوجد عدد محدود من الدراسات والبحوث 
التي تمت على عمليات تمثيل واسترجاع المعلومات غير النصية E‏ 
أقل أنواع المواد التي حظيت بعناية من بين الأنواع المتعددة للمواد التي تتضمن 
معلومات وسائط متعددة» في نه Ni gut‏ تت الا هد (pas slag hella la‏ 
مطرداً في حجم المعلومات وفي عدد الوسائط المتعددة في البيئة الرقمية» والتي 
E‏ الفعلي» حيث ترى بعض التقديرات أنها 
تجاوزت نسبة 30 / من حجم الويب .Jones et,el., 1996, and Djeraba,(2002)‏ 
اق ان del‏ على تراه اك ره السات ال رمك ي 
كبرى لتيسير عمليات تمثيل واسترجاع وإتاحة تلك المعلومات. وتوجد حاجة ماسة 
إلى إجراء العديد من البحوث والدراسات في هذا المجال للتغلب على التحديات 
التى تواجه الطرق الآلية لتجزئة المواد الصوتية والصور المتحركة. فمازال التدخل 
الشرى عام ere heer‏ في تقل السا المتعددة حتى باستخدام أسلوب 
التمثيل المستند إلى المحتوى .-Approach Content Base‏ 


ويمكن القول بصفة عامة إن عدد الدراسات والبحوث التي اهتمت بتمثيل 
of polls 25 TE E oll‏ اتف jhe‏ ال محدودا of gall sendy Iie‏ المممرعة 
أقل المواد التي حظيت بعناية واهتمام الباحثين من بين مواد الوسائط المتعددة. 
ومع النمو المطرد في عدد الوسائط المتعددة في البيئة الرقمية» فإن تمثيل الوسائط 
المتعددة يمثل تحديا حقيقيا لإتاحة المعلومات التي تتضمنها تلك الوسائط. 
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> 4.5 إطار ملخص لتمثيل المعلومات 
يعد تمثيل الوحدات المعرفية عملية أساسية عند استرجاع المعلومات لسببين 
أمناسين هها: 
e‏ أن التمثيل يوفر بدائل أكثر فعالية في البحث والاسترجاع لذلك فإن 
المعلومات لابد أن تكون ممثلة قبل أن يتم استرجاعها. 


٠‏ جودة التمثيل SH‏ بصورة مباشرة في كفاءة الأداء في عملية الاسترجاع. 


تعتمد عملية تمثيل المعلومات لأغراض الاسترجاع على معلومات وصفية 
مظهرية Offness‏ ومعلومات عن المضمون aboutness‏ باستخدام النموذج المستند 
إلى المحتوى فى تمثيل الوسائط المتعددة. وتجدر الإشارة إلى أن المعلومات 
المظهرية تشمل خصائص وصفية للمادة التي يتم تمثيلها مثل المؤلف أو المنشأء 
اللغة» سنة النشر..إلخ» Lal‏ معلومات المضمون فتتعامل مع المحتوى الموضوعي 
للوثائق والمعلومات. ويعد نموذج المعلومات الوصفية المظهرية في التمثيل أكثر 
وضوحاً وسهولة مقارنة بنموذج معلومات المضمون الذي يعد أكثر صعوبة وتعقيداً 
حيث يعاني من مشكلات معالجة اللغة» والتي سبق عرضهاء وخاصة التعامل مع 
المترادفات والمشترك اللفظي..الخ. 

ويتأثر أداء نظام الاسترجاع بكفاءة نظام التمثيل» لذلك LY‏ من الاهتمام بتحقيق 
أعلى مستويات الكفاءة والدقة والاطراد فى تمثيل المعلومات في البيئة الرقمية» ما 
Led‏ المعقدة والمتشساركة: 
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الفصل الخامس 


واسترجاع المعلومات 


< 5 مقدمة 


تعد اللغة أحد المكونات الرئيسة CY‏ نظام من نظم المعلومات عامة» وفي نظم 
تمثيل واسترجاع المعلومات خاصة. ويوجد نوعان أساسيان من اللغات في تمثيل 
واسترجاع المعلومات هما اللغة الطبيعية واللغة المضبوطة. وتستخدم اللغتان في 
ترجمة المفاهيم التي تتضمنها الوثائق التي يتم تمثيلها إلى مصطلحات تستخدم في 
وصف المفاهيم والمحتوى الموضوعي للوثائق. وعلى الرغم من إمكانية الاختيار 
بينهماء إلا أن السؤال الخاص بأيهما أفضلء مازال محل جدل دائم بين المتخصصين. 
وقد نتج عن استخدام لغتين للتعبير عن المصطلحات نظامان للتكشيف: هما نظم 
تكشيف اللغة المقيدة أو المضبوطة ونظم تكشيف اللغة الطبيعية. وتستخدم اللغة 
في التعبير عن المحتوى الموضوعي للوثائق باستخدام مصطلحات يتم اشتقاقها من 
أدوات (نظم اللغة المضبوطة) أو من النصوص مباشرة (نظم اللغة الطبيعية) للتعبير 
عن المفاهيم التي تتناولها تلك الوثائق. وسيتم فيما يلي التعرف إلى طريقة تطبيق 
كل نوع من هذين النوعين في نظم استرجاع المعلومات. 
> 5.1 نظم تكشيف اللغات المقيدة أو المضبوطة 

هي النظم المبنية على الاختيار والصياغة والربط بين المصطلحات التي تعبر عن المحتوى 
الموضوعي لأوعية المعلومات من خلال الاعتماد على لغات تكشيف معيارية. ويطلق عليها 
نظم مضبوطة أو مقننة» نظراً لأن التحكم في المصطلحات وطريقة الربط بينها يدم وفقاً لمعايير 
معينة تحددها لغة التكشيف التي يعتمد عليها النظام. وتنبع الحاجة إلى استخدام US‏ 
مضبوطة في التعبير عن المحتوى الموضوعي للوثائق من طبيعة اللغة بصفة عامة. 
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وتعد قوائم اللغات المضبوطة نموذجاً بارزاً للغات الاصطناعية» حيث إن 
مصطلحاتها وبنيتها ودلالاتها محددة ومقيدة فى استخدامها (199 -(Wellisch,‏ ومن 
ارف ا ال د ا E seeds ral‏ لار ا في عدر من 
قائمة مصطلحات مضبوطة» حيث إنه عادة ما يكون لكل قائمة توجهها الخاص. 
لذلك فإن عمليات تجهيز المصطلحات المضبوطة عادة ما تعتمد فى بنيتها على 
الج Lal‏ البو ال تما زوت اغ ار ال غات الس بح ا 
اللغات المضبوطة على مبدأين أساسيين هما: 


Literary Warranty السند الأدبى‎ ٠ 


User Warrant سند المستفيد‎ œ 


السند الأدبي يشير إلى أن المصطلح الذي يتم اختياره بالقائمة لابد أن يكون 
له نظير بالإنتاج الفكري المتخصص في المجال» ما يعنى أنه ظهر بأحد مصادر 
المعلومات الحديثة وبناء عليه يتم إضافته إلى القائمة» بمعنى أن عملية اختيار 
المصطلحات وإضافتها إلى قوائم رؤوس الموضوعات تتستند في الأساس إلى 
المصطلحات الواردة باللغة الطبيعية في الإنتاج الفكري. من ثم فإن اللغة الطبيعية 
عادة ما تكون أكثر Le gig HS‏ من اللغة المضبوطة. 

وبالمثل» فإن سند المستفيد يشير إلى أن المصطلح الذي يتم اختياره بالقائمة لابد 
أن يكون تم استخدامه في استفسارات المستفيدين كمصطلح بحثي في الماضيء أو 
من المتوقع استخدامه في المستقبل في البحث عن الإنتاج الفكري الذي ظهر به 
المصطلح في مرحلة السند الأدبي. 

من ثم فإن بناء قوائم المصطلحات المضبوطة من الممكن أن يعتمد على تحليل 
محتوى النصوص لاشتقاق الكلمات ثم يتم ضبطها أو تحليل ملفات لوج استفسارات 
المستفيدين Users Queries Log‏ ويوجد ثلاث نماذج للغات المضبوطة هي المكانز 
وقوائم رؤوس الموضوعات وخطط التصنيف» وسيتم فيما يلي عرض كل نموذج من 
هذه النماذج بشيء من التفصيل. 
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> 5.1.1 وظائف اللغة المقيدة 


اللغات المقيدة أو المضبوطة تحقق العديد من الوظائف عند استخدامها كأساس 
لعملية التكشيف منها مايلي: 


اللاطراد في التكشيف» بمعنى الثبات على مصطلح واحد محدد للدلالة 
على المفهوم المكشف. من ثم تساعد على تجنب التشتت الموضوعي في 
E E E‏ 

تيسير إجراء عمليات البحث العريضة والشاملة التي تساعد على تجميع 
المصطلحات المتصلة ببعضها بعضا دلالياء وذلك من خلال الاستفادة من 
إمكاتيات edd‏ الشامل: 

ضمان التعبير عن جميع المفاهيم المشتركة لفظياً في الهجاء والمختلفة 
في الدلالة بمصطلحات مختلفة من خلال التبصرات التي توضح مجال 
المصطلح. 

اللغات المضبوطة تتمتع بالقدرة على تحقيق مستويات دقة عالية High‏ 
Precision Rate‏ في مرحلة البحث. 


al 


> 5.1.2 عيوب نظم اللغة المقيدة 


ومن أهم عيوب نظم التكشيف التي تعتمد على اللغات المقيدة ما يلي: 


Las‏ الباهظة؛ حيث clos‏ هذه النظم إلى خبراء متخصصين في 
المجالات الموضوعية وعلى دراية دقيقة ببنية لغات التكشيف ومتطلبات 
تقادم مصطلحات اللغة وعدم قدرتها على متابعة التطورات التي تحدث في 
الإنتاج الفكري. وتبرز هذه المشكلة بشكل أكثر وضوحاً عند ظهور مصطلح 
جديد في الإنتاج الفكري» حيث تشير الدراسات إلى أن أي مصطلح قد يستغرق 
مابين عامين إلى ثلاثة أعوام حتى يظهر في لغات التكشيف المضبوطة. 


mt 
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> 5.1.3 أنواع نظم التكشيف المقيدة 
تنقسم نظم التكشيف المضبوطة أو المقيدة إلى فئتين أساسيتين هما: 


< 5.1.3.1 نظم تكشيف الربط المسبق 


Pre-coordinate Indexing Systems 


وهي النظم التي تربط بين المصطلحات في مرحلة التكشيف» بحيث يتم إعداد 
تراكيب مصطلحات أو رموز تعبر عن المحتوى الموضوعي للوثيقة أو وعاء المعلومات 
بكافة جوانبه. وتعتمد هذه الطريقة على استخدام أدوات الربط المسبق مثل قوائم رؤوس 
الموضوعات وخطط التصنيف لكي تظهر في شكل رؤوس مركبة تضم أو تجمع معا 
المصطلحات التي تمثل موضوع الوحدة المكشفة. وتعتمد نظم تكشيف الربط المسبق 
على أداتين أساسيتين هما قوائم رؤوس الموضوعات وخطط التصنيف. 
o‏ قوائم )19 الموضوعات 
تعد قوائم رؤوس الموضوعات من أقدم نماذج قوائم المصطلحات المضبوطة التي 
تم تصميمها لأغراض الربط المسبق واللاحق معا. وقد كان الربط المسبق النموذج 
السائد في البناء حتى الأربعينات من القرن الماضي. ويقصد بالربط المسبق دمج 
المصطلحات من خلال أنظمة التفريع والتركيب قبل عملية التمثيل والاسترجاع. 
قوائم رؤوس الموضوعات هي عبارة عن قوائم منهجية بموضوعات المعرفة 
البشرية مرتبة ترتيباً هجائياً مع بيان العلاقات بين هذه الموضوعات. وتشتمل قوائم 
- رأس الموضوع المفرد: ويأخذ هذا الرأس شكل كلمة واحدة مثل الإعلام؛ 
المكتبات» الحاسوب.. إلخ. 
- رأس الموضوع المركب: وهو عبارة عن رأس مكون من كلمتين مركبتين مثل 
استرجاع المعلومات» الحاسب الآلي» التطوير الذاتي» إدارة الإعمال.. الخ. 
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- رأس الموضوع المعقد: وهو عبارة عن رؤوس الموضوعات التي تتضمن أكثر 
من كلمتين مثل نظم استرجاع المعلومات» النظم الآلية المتكاملة. 

فإذا كانت المادة المكشفة تتناول موضوع Internet Retrieval System‏ فإن نظام 
الربط المسبق يربط بين تلك المصطلحات في قائمة رؤوس الموضوعات من البداية» 
من ثم يتم استخدام المصطلح بصورته المعقدة في عملية التمثيل» وكذلك في عملية 
الاسترجاع. لذلك فإن عملية الربط تتم عند بناء المصطلح لأغراض التمثيل» كما 
تتم بنفس الطريقة في مرحلة الاسترجاع دون تدخل من المكشف أو الباحث» حيث 
يجب على كل منهما التزام التتابع الخطي المستخدم في عملية بناء المصطلحات 
عند التمثيل والاسترجاع. ونظراً لأن قوائم رؤوس الموضوعات تتيح إمكانيات الربط 
المسبق واللاحق (بدرجة أقل)؛ فإنها تتميز بمرونة أكبر من خطط التصنيف؛ ولكنها 
أقل تحديدا ومرونة من GLAM‏ 


ومن أهم السمات التي تميز قوائم رؤوس الموضوعات وتجعلها أداة من أهم 
أدوات الربط المسبق» استخدامها لمبدأً التفريعات» حيث إن رؤوس الموضوعات 
سواء كانت بسيطة أو مركبة أو معقدة تطبق تراكيب عدة سواء كانت وجهية أو 
جغرافية أو زمنية أو شكلية. بالتالي فإن رأس الموضوع يرد في القائمة» إما مركباً 
مع كافة الأوجه الممكنة أو توفر القائمة إمكانية تركيبه من الأوجه المختلفة. ومن 
أمثلة قوائم رؤوس الموضوعات الشهيرة قائمة رؤوس موضوعات الكونغخرس» 
قائمة رؤوس موضوعات سيرزهء قائمة رؤوس الموضوعات الطبية» قائمة رؤوس 


الموضوعات العربية الكبرى. 


عادة ما يستخدم مصطلح رؤوس الموضوعات للدلالة على المصطلحات التي 
تتضمنها قوائم رؤوس الموضوعات. ويتم ترتيب تلك الرؤوس ترتيباً هجائياً. وتعتمد 
تلك القوائم على شبكة الإحالات في عمليات الإشارة والتحويل. وأهم أنواع تلك 
الإحالات إحالة انظر See‏ والتي تستخدم للإحالة من المصطلح غير المستخدم إلى 
المصطلح المستخدم. بينما تستخدم علامة × والتي تعني انظر من See From‏ والتي 
تحيل المستخدم إلى التعبير المفضل للمصطلح باستخدام الإحالة انظر See‏ 
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o‏ نماذج للإحالات بقوائم رؤوس الموضوعات 
Handicapped‏ المعوق 

See‏ انظر 

Physically Challenged‏ متحدي الإعاقة 

ومن المصطلح متحدي الإعاقة تستخدم JE]‏ انظر من X)‏ 

Physically Challenged‏ متحدي الإعاقة 

X X 


Handicapped‏ المعوق 


فعلامة X‏ هنا تشير إلى أن مصطلح متحدي الإعاقة هو المصطلح المفضل لهذا 
المفهوم. 

وتستخدم إحالة انظر See For Laf‏ وإحالة ×× التي تستخدم للدلالة على انظر 
أيضاً من See Also From‏ وتستخدم إحالة انظر أيضا للدلالة على العلاقات الشجرية 
والبينية (المرتبطة) بين رؤوس الموضوعات. وكما هو الحال في إحالة × فإن إحالة 
XX‏ تحيل المستخدم إلى المصطلح المفضل l „See Also‏ 

من ثم يمكن القول بصفة عامة إن قوائم رؤوس الموضوعات تستخدم لأغراض 
التمثيل الاصطلاحي والمفاهيمي في صورة مقيدة بنظم الربط المسبق واللاحق 
Lee‏ إلا أنها أقل استخداماً وشيوعاً من المكانز في نظم التمثيل والاسترجاع بنظم 
المصطلح غير الواحد. 

وة LSE‏ رورس Lally op as Le pos‏ رور digs‏ غات 
سيرز Sears‏ أبرز نماذج قوائم رؤوس الموضوعات على المستوى العالمي» مع 
العلم أن قائمة رؤوس موضوعات مكتبة الكونجرس تحولت منذ الطبعة الحادية 
عشرة إلى النموذج المكنزي في البناء الهرمي للمصطلحات وشبكة الإحالات. 
وتعتمد في نسختها المتاحة على الويب على نموذج العرض المرئي للبنية الهرمية 
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للمصطلحات”2. وقد بدأت قائمة رؤوس موضوعات مكتبة الكونجرس منذ بداية 
الألفية الجديدة تطبيق معايير ربط البيانات Linked Data‏ من خلال ربط المصطلحات 
بتطبيقات إطار وصف المصادر Reasourse Description Framwork — RDF‏ ومعايير 
المعاذاكا الط ةة ASSL‏ 


وعلى المستوى العربي تعد قائمة رؤوس الموضوعات العربية الكبرى لشعبان عبد 
العزيز خليفة وقائمته للمكتبات المدرسية والعامة والمعروفة بقائمة رؤوس الموضوعات 
القياسية من أبرز النماذج العربية وأكثرها انتشاراً واستخداماً. وتجدر الإشارة هنا إلى 
أن قوائم رؤوس الموضوعات العربية مازالت تعتمد على الأساليب التقليدية في بناء 
المصطلحات والربط بينها والتعبير عن شبكة العلاقات والمصطلحات. وتوجد حاجة 
ماسة إلى تطوير أدوات جديدة في البيئة العربية تتوافق مع التطورات التي تسير في هذا 
المجال واحتياجات تمثيل استرجاع المعلومات في البيئة الرقمية. 

o‏ خططالتصنيف 


هي عبارة عن قوائم منهجية بموضوعات المعرفة البشرية مرتبة وفقاً لخطة 
تصنيف تربط وتجمع الموضوعات وفقاً لعلاقاتها ببعضها بعضاً. وعادة ما تتدرج 
خطط التصنيف من الموضوعات العامة إلى الموضوعات الأكثر تخصصاً. وتسمح 
ببناء تراكيب للموضوعات التي تشتمل على أكثر من جانب موضوعي. وتنقسم 
خطط التصنيف التي يمكن استخدامها في نظم تكشيف الربط المسبق إلى نظم 
أي تستخدم نموذج الربط المسبق في تمثيل المفاهيم والموضوعات. ويطلق 





http://id.loc.gov/authorities/subjects html (1) 
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على الوحدات الأساسية لخطة التصنيف الفئات Classes‏ والتي يتم تمثيلها 
بصورة رقمية أو هجائية أو مزيج منهما معاً. بمعنى أن خطط التصنيف تستخدم 
الرموز (الرقمية» الهجائية أو مزيجا منهما مع علامات خاصة) للدلالة على 
المفاهيم والموضوعات. 

ونظراً لأنها أقدم نماذج نظم التمثيل بآليات التكويد المضبوطة» فإن خطط 
التصنيف شهدت العديد من التطورات المتلاحقة والمراجعة والتحديث خلال الفترة 
من نهاية القرن التاسع عشر حتى بدايات القرن الواحد والعشرين. وعلى عكس 
كل من المكانز وقوائم رؤوس الموضوعات اللذين يستخدمان الإطار الطبيعي في 
التعبير عن المعرفة من خلال آليات التعبير الاصطلاحي أي باستخدام المصطلحات 
والكلمات» تعتمد خطط التصنيف على إطار اصطناعي للمعرفة يتمثل في تكويد 
الموضوعات برموز للدلالة عليها. فعلى سبيل Jll‏ تستخدم خطة تصنيف ديوي 
العشري نموذجاً اصطناعياً للتمثيل الاصطلاحي للمعرفة مكون من 10 فئات أساسية» 
ثم يتم تقسيم الفغات الأساسية إلى 10 شعب لكل فئة وهكذا في تدرج منطقي هرمي 
لتمثيل المعرفة في مقابل التدرج الشجري أو العلائقي المستخدم في المكانز والتدرج 
الهجائي المستخدم في قوائم رؤوس الموضوعات. 

وبالنظر إلى التدرج المنطقي للفئات والشعب نلاحظ أنه تدرج هرمي للعلاقات 
الاصطناعية بين الموضوعات. من ثم نجد أن بعض الموضوعات يمكن عرضها في 
إطار أكثر عمقاً في البناء الهرمي من موضوعات أخرى. ويتم التعبير عن العلاقات 
البينية المرتبطة بخطط التصنيف من خلال استخدام نظام إحالات مكون من إحالة 
(انظر) و (انظر (oat‏ اللمى Obst‏ عند Lage doled!‏ 


وقد تم استخدام خطط التصنيف كنموذج لتمثيل واسترجاع المعلومات الأحادية 
Monograph Information‏ حيث يتم استخدام رمز تصنيف واحد للإشارة إلى كيان 
أو وعاء معلومات أو وحدة معلوماتية كاملة. ومن أبرز نماذج خطط التصنيف وأكثرها 
انتشارا على المستوى العالمي كل من خطة تصنيف ديوي العشري وخطة تصنيف 
مكتبة الكونجرس واللتين تمت ترجمتهما إلى كل اللغات ومنها العربية. 
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o‏ خطوات التكشيف في نظم الربط المسبق 

تنطوي عملية التكشيف في نظم الربط المسبق على أربع مراحل أساسية هي: 

1. التحليل المفاهيمى. 

2. اختيار المصطلحات من لغة التكشيف المقيدة. 

3 تركب أو ربط elle‏ ما رشا لقراعد الربط A Las Sl‏ 
التكشيف. 

ll day Nolte] 4‏ تربط التسجيلة البلبوجرافية JUNO pee‏ 
وناتج عملية التكشيف في هذه الحالة يتمثل في تراكيب مصطلحات مركبة أو 
معقدة» بالتالي ينبغي في عملية البحث أن تصاغ الرؤوس المستخدمة في البحث 
بنفس الطريقة التي أعدت بها في أثناء عملية التكشيف لكي تتم عملية المضاهاة 
بين مصطلحات البحث والمصطلحات المستخدمة في عملية التكشيف. بمعنى 
آخر أنة ينبخى أن تكون الرؤوس أو الرموز المستخدمة فى عملية البحث متطابقة 
تماماً مع الرؤوس أو الرموز المستخدمة في عملية التكشيف. وقد استخدمت هذه 
النظم في إعداد الفهارس الموضوعية الهجائية» الفهارس المصنفة. الببليوجرافيات 

الموضوعية المصنفة. 

ومن أهم عيوب نظم تكشيف الربط المسبق ما يلي (لانكسترء 1997): 
1 أنها معقدة من حيث البناء» حيث تتطلب إعداد تراكيب للمصطلحات تربط 

فيما بينهاء بحيث ينتج في النهاية رأس موضوع واحد يعبر عن المحتوى الموضوعي 
2 هذا النوع من النظم يستخدم مدخلاً واحداً لترتيب المصطلحات المركبة 
أو المعقدة وهو ليس بالضرورة الرأس المناسب للبحث فى كل الحالات. 
إضافة إلى أن وعاء المعلومات لا يمكن الوصول إليه إلامن خلال هذا 
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المدخلء بمعنى اختزال العلاقة بين المصطلحات في شكل خطي أو تتابع 
خطي باستخدام التوافيق المحتملة للمصطلحات. ما يقيد المستفيد في عملية 
البحث وفقاً لهذا التتابع الخطي. 

أن هذا الأسلوب وإن كان اقتصادياً من toe‏ عدد المصطلحات المستخدمة 
في التعبير عن المحتوى الموضوعي للوثيقة» إلا أنه غير عملي» حيث إن زيادة 
عد lila‏ أو العافت التي تنتمي إليها الوثيقة إلى 10 أو 15 مصطلحاً 
تخلق موقفاً يصبح من المستحيل فيه التعامل مع نظام الربط المسبق. 


i 


ومن الحلول التي طرحت للتغلب على مشكلات نظم الربط المسبق ما يلي: 


محاولات تشارلز كتر في استخدام مبدأ القلب في صياغة الرؤوس المركبة» 
الذي أوصى بوضع المصطلح الأهم في مقدمة الرأس» وذلك بقلب الرأس 
إذا لم يكن العنصر الأول فيه هو العنصر المهم. كما وضع أيضاً الجذور 
الأساسية لشبكة الإحالات التى تربط بين المصطلحات الواردة فى لغة 
التكشيف كإحالات انظر وانظر Lal‏ 


استخدام فكرة التصنيف الوجهي: وتقوم فكرة التصنيف الوجهي على أساس 
أن كل الرؤوس المركبة أو المعقدة يمكن تركيبها باستخدام نسق عام لترتيبها 
يعتمد على تحديد العنصر المهم في الرأس» بحيث يأتي في البداية ثم يليه 
العنصر الأقل أهمية ثم الأقل أهمية. كما يرى كايزر أن رؤوس الموضوعات 
المركبة أو المعقدة يمكن تحليلها إلى مركب مكون من شيء محسوس 
Concrete‏ وعملية Process‏ وأن المحسوس أو الشيء ينبغي انها أن يسبق 
العملية عند al Solel‏ 


مثال الكتب - فهرسة 


المكتبات - تنظيم 
النظم - تحليل وتصميم 


اللغة في تمتيل واسترجاع المعلومات 


كما وضع مبادئ التفريعات الجغرافية والشكلية بحيث تلي تلك التفريعات 
العمليات التي تتم على المفهوم. 

مثال: المكتبات - تنظيم - مصر (الشيء - العملية - التفريع الجغرافي) 

المكتبات - مصر - أدلة (الشيء - التفريع الجغرافي - التفريع الشكلي) 

كما قام رانجاناثان بإعداد أشهر خطة للتصنيف الوجهي في أواخر العشرينيات 
وأوائل الثلاثينيات من القرن السابق. وقد استندت فكرة رانجاناثان إلى تطوير أفكار 
كايؤر للميحسوس والعملية» وذلك ford]‏ على خمس فات أساسية هى: 

5 الالء تة 

6 المادة: مواد أساسية 

7 الطاقة: عملية - أسلوب 

OKJ 8 

9 الزمان. 

Term Rotation تدويرالمصطلحات‎ ٠ 

تستند فكرة تدوير المصطلحات إلى أساس إعطاء كل عنصر من poke‏ الرأس 
فرصة الظهور في مقدمة الرأس. بالتالي يكون قابلاً للبحث والاسترجاع. وهي 
الفكرة العى eal‏ إلبها Le Lad‏ كشافات الكلمات eed‏ فخلا إذا كان لدينا 
رأس موضوع معقد مثل نظم استرجاع المعلومات الببليوجرافية يمكن تدويره كاملاً 
باستخدام المعادلة التالية. 

(N- I) X (N- 2) X (N- 3( XN 

فإذا كان LQ‏ رأس مكون من أربعة مصطلحات» وعند تطبيق معادلة تدوير 

المصطلحات تكون كالتالى: 


(4-1) X (4-2) X (4-3)X4=3X2X4=24 


الفصل الخامس 


Ll‏ إذا اشتمل الرأس على ثلاثة مصطلحات يكون عدد البدائل كما يلي: 
X (3-2) X3=2X1X3=6‏ )3-1( 

مثال: نظم استرجاع المعلومات 

نظم استرجاع المعلومات 

نظم المعلومات - استرجاع 

استرجاع المعلومات - نظم 

استرجاع - نظم - المعلومات 

نظم المعلومات - استرجاع 

نظم - استرجاع المعلومات 

وتجدر الإشارة إلى أن من أهم عيوب عملية تدوير المصطلحات الزيادة الكبيرة 


في عدد البدائل» ما يؤدي إلى تضخم الكشافات» مع العلم أن تلك الآليات كانت 
تستخدم مع الكشافات المطبوعة للتغلب على مشكلات اللغة المضبوطة. 


> 5.1.3.2 نظم تكشيف الربط اللاحق 


Post Coordinate Indexing Systems 


هي النظم التي يتم الربط فيها بين المصطلحات التي تمثل المفاهيم المختلفة 
لكي تظهر في شكل رؤوس مركبة أثناء عملية البحث والاسترجاع. في هذه النظم يتم 
تمثيل المصطلحات التي تعبر عن المفاهيم الواردة في الوحدة المكشفة في صورة 
مصطلحات مفردة» فيما يطلق عليه نظام المصطلح الواحد Uniterm‏ دون الحاجة إلى 
إعداد تراكيب مصطلحات معقدة أثناء عملية التكشيف. ما يقضي على مشكلة التتابع 
الخطى للمصطلحات» ويقضى بالتبعية على الحاجة إلى تدوير المصطلحات. كما 
أنه يوفر إمكانية الوصول إلى الوثائق باستخدام المصطلحات المفردة والمصطلحات 
المركبة والمعقدة. 


اللغة في تمتيل واسترجاع المعلومات 


وقد اتخذت نظم الربط اللاحق أشكالاً متعددة في مراحلها الأولى؛ منها الاعتماد 
على البطاقات المثقبة في تمثيل المصطلحات المفردة» ما أدى إلى ظهور مبادئ 
مختلفة للمضاهاة أو المطابقة بين المصطلحات المستخدمة في عملية التكشيف 
والمصطلحات المستخدمة في عملية البحث والاسترجاع. ومن هذه الأساليب مبداً 
المطابقة البصرية ومنها أيضاً مبدأ المطابقة الميكانيكية. وقد اعتمد كل منهما على 
استخدام بطاقة واحدة للتعبير عن المصطلحات المختلفة في النظام فيما يعرف 
ببطاقة الوثيقة أو استخدام بطاقة واحدة لكل مصطلح فيما يعرف ببطاقة المصطلح. 


وتجدر الإشارة إلى أن طرق إعداد بطاقة المصطلح وبطاقة الوثيقة قام بتطويرها كل 
من باتن Batten‏ ومورز 1100615 في نهاية الأربعينيات من القرن الماضي» ولم تزل 
الطريقتان هما الأساسيتين في بناء ملفات النظم الإلكترونية المعتمدة على الحاسبات 
الآلية في استرجاع المعلومات. 
ومن أهم الملامح العامة التي تتميز بها نظم التكشيف الربط اللاحق أنها:- 
1. تعالج موضوعات الوثائق كمفاهيم فردية يتم التعبير Lee‏ باستخدام نظام 
المصطلح الواحد دون الحاجة إلى توافيق أو تراكيب مصطلحات معقلة. 
2. تعتمد هذه النظم على اختيار المصطلحات من لغة تكشيف مضبوطة أو مقننة 
يطلق عليها المكانز سوف نتناولها بالتفصيل فيما بعد. 
3. يجب استخدام لغة التكشيف المضبوطة أيضاً لاختيار المصطلحات المناسبة 
للتعبير عن المفاهيم الواردة في استفسارات المستفيدين. 
4. بعد اختيار مصطلحات البحث من لغة التكشيف المضبوطة يتم الربط بينها 
في مرحلة البحث والاسترجاع من خلال إعداد استراتيجية البحث. 
5. هذه الطريقة تمثل الأساس الذي تعتمد عليه معظم النظم الإلكترونية في 


تمثيل الوثائقء بالتالي فهي تصلح أساساً لنظم استرجاع المعلومات المعتمدة 
على الحاسبات الآلية. 
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6. تتمتع هذه النظم بالمرونة الكافية» حيث إنه يمكن تمثيل محتويات الوحدة 
المكشفة GL‏ عدد من المصطلحات,. بالتالى يمكن تحقيق مستوى العمق 
الان عة شت الر انق درن اا إلى اداد iter E E‏ 
معتمدة على التتابع الخطي للمصطلحات» كذلك دون الحاجة إلى تدوير 
المصطلحات من أجل تيسير عملية الوصول إليها. 


o‏ المكانز 


المكنز عبارة عن قائمة مصطلحات مضبو Ub‏ تعتمد فى صياغتها للمصطلحات 
ple‏ اي اام اروا ا اه ر than oy Kay‏ ر ن 
المصطلحات عن طريق معاملات البحث فيما يطلق عليه الربط اللاحق (- Post‏ 
«(coordination National Information Standards Organization, 1993‏ كما عرفها 
زولي Lek‏ قائمة بالمصطلحات والعبارات توضح المترادفات والبناء الشجري 
وغيرهما من العلاقات ومدى تبعية مصطلح لمصطلح آخرء والتي تساعد على توفير 
قائمة معيارية لخزن واسترجاع المعلومات (Rowley,1992, P.25)‏ 

ويعد الربط اللاحق أحد آليات معالجة المصطلحات في نظم استرجاع المعلومات 
التي ظهرت كبديل لنظم الربط المسبق التي تعتمد على خطط التصنيف وقوائم 
رؤوس الموضوعات. وتساعد نظم الربط اللاحق المستفيدين على إقامه علاقات 
بين المصطلحات وإنشاء تراكيب البحث في مرحلة تمثيل واسترجاع المعلومات. 
ومن أبرز عيوب الربط اللاحق هو الربط الخاطي» وأحد أبرز الأمثلة على ذلك 
مصطلحان مثل Desk , Computer‏ يمكن ربطهما بطريقتين مثل Computer Desk‏ أو 
Desk Computer‏ وذلك بناء على الغرض الأساسي من الموضوع» فإذا كان الباحث 
يريد معلومات عن Desk Computer‏ فإن النتائج التي يكون الربط فيها Computer‏ 
Desk‏ سوف تؤدي إلى ربط خاطى ونتائج غير دقيقة. 

وتستخدم الحواشي المعيارية في بناء المكانز لتحديد العلاقات الشجرية (الهرمية) 
وعلاقات الارتباط وغيرها من العلاقات بين المصطلحات. وتستخدم شبكات 
الإحالات لتحديد المصطلحات المفضلة في الاستخدام للدلالة على الموضوعات 


اللغة في تمتيل واسترجاع المعلومات 


والمفاهيم مثل إحالة مستخدم Use‏ وإحالة مستخدم ل Used for (UF)‏ وتستخدم 
حواشي المجال Scope Note (SN)‏ في تحديد نطاق استخدام المصطلح والمعنى 
الدلالي للمصطلح المستخدم. ويتم توضيح العلاقات الشجرية بين المصطلحات من 
خلال علاقات البناء الهرمي للمصطلح الأضيق Narrower Term (NT)‏ المصطلح 
الأوسع «Broader Term (BT)‏ كما يتم التعبير عن علاقات الارتباط Associative‏ 
Relationship‏ من خلال استخدام إحالة المصطلح المرتبط -Related Term (RT)‏ 


وغنادةما يخم رھب المكاتز كربا Lee pay a‏ لعسير الوصول إل شبكة 
المصطلحات وعلاقاتها ببعضها بعضاً. كما يتم أحياناً استخدام أساليب التدوير 
Rotated‏ والتبديل Permuted‏ في عرض المصطلحات إلى جانب أساليب العرض 
النظمى Systematic‏ أو التصنيفي Classification‏ أو العرض الشكلي Graphical‏ 
اوا المصطلحات وعلاقاتها ببعضها بعضاً. )& Aitchison, Gilchrist‏ 
.(Bawden , 1997‏ 


وتعد المكانز أكثر قوائم اللغات المضبوطة شيوعاً في الاستخدام في نظم تمثيل 
واسترجاع المعلومات» حيث تعتمد قوائم رؤوس الموضوعات وخطط التصنيف 
التحليلية التركيبية على نظم المصطلح غير الواحد »NNon-Monograph‏ ما يحدمن 
مرونة تلك الأنظمة: بينما تتميز المكانز التي تعتمد على نظم المصطلح الواحد 
بالمرونة إلى جانب قدرتها على معالجة المفاهيم المعقدة» من خلال معاملات الربط 
والعلاقات المتنوعة والإحالات. 


وشبكة الإحالات» ولعل أبرز مثال على ذلك قائمة رؤوس موضوعات مكتبة 


الكونجرس وقائمة رؤوس الموضوعات P ihl‏ 





https://www.nlm.nih.gov/mesh/filelist.html (1) 
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> 5.1.4 مقارنة بين المكانز وقوائم رووس 
الموضوعات وخطط التصنيف 

يشير جدول (4.1) إلى ملخص للملامح المميزة للأنواع الثلاثة المستخدمة في 
تمثيل نظم اللغة المضبوطة. فإلى جانب ما تم مناقشته LY‏ فإن لغات الربط 
المسبق تتميز بملمح مهم آخر يتمثل في طرق التحليل. ولعل أبرز طرق التحليل التي 
تتبعها تلك الأدوات Lef‏ أدوات حصر Enumeration Tools‏ ما يعني أنها تتيح قوائم 
حصرية بالمصطلحات التى تمثل الإطار المعرفى الكامل سواء كان طبيعياً (كماهو 
الحال في المكانز وقوائم رؤوس الموضوعات) أو مصطنعاً كما هو الحال في خطط 
التصنيف دون الحاجة إلى دمج المصطلحات معا للتعبير عن إطار معقد للمعرفة. 
وعلى العكس من ذلك» تعد تلك اللغات ta‏ أدوات تركيب Synthesis Tools‏ تتيح 
الدمج بين المصطلحات لبناء تركيب أكثر تعقيداً سواء كان ذلك في مرحلة التمثيل 
أو البحث (لانكسترء 1997) ويوجد ارتباط جذري بين طريقة التحليل وطريقة الربط 
في تلك الأدوات. ويرجع ذلك إلى أن أدوات الربط المسبق تعد أدوات حصرية في 
بنيتهاء بينما تعد أدوات الربط اللاحق أدوات تحليلية تركيبية. ويتم تحديد مستويات 
للربط وإقامة العلاقات» بينما تتميز أدوات الربط اللاحق بوجود مرونة فى OLS‏ 
peel‏ اتب المعرقية gical‏ عة مين لغات das MN‏ النسبق الحصرية. ووفقاً للجدول CA.)‏ 
فإن المكانز تعد أكثر اللغات المضبوطة تخصيصاً ومرونة في الاستخدام من كل من 
خطط التصنيف وقوائم رؤوس الموضوعات؛ ما يفسر لماذا تعد المكانز أكثر لغات 
المصطلحات المضبوطة انتشاراً واستخداماً في تمثيل واسترجاع المعلومات. 


اللغة في تمتيل واسترجاع المعلومات 


دول 4.1 مقار cold‏ المصطلحات المضبوطة 





























اللغة / الخاصية المكانز قوائم رؤوس الموضوعات | خطط التصنيف 
مكونات المصطلح واصفات رؤوس موضوعات رموز التصنيف 
أسلوب الإحالات | استخدم مستخدم ل استخدم» مستخدم ل انظر وانظر أيضاً 
والحواشي مستخدم بدلا من» مستخدم 
بدلا من أيضاً 
طرق التحليل تحليلية تركيبية حصرية 
طرق الربط لاحق مسبق ولاحق مسبق 
التخصص أكثر تخصصياً خفضة إل حدما عامة 
المرونة أكثر مرونة مرنة إلى حد ما أقل مرونة 
المواد المستهدفة ‏ المنفردات والمواد التحليلية | المنفردات المواد التحليلية المنفردات 














> 5.2 نظم تكشيف اللغة الطبيعية 


تعمل نظم التكشيف dale Live,‏ على إعداد بدائل للوثائق يمكن بحثها بسهولة 
من خلال المقارنة أو المطابقة بين المصطلحات الواردة في استفسارات المستفيدين 
والمصطلحات التي تم اختيارها للتعبير عن المحتوى الموضوعي للوثائق. فإذا كانت 
نظم التكشيف المضبوطة أو المقيدة تنتقي مصطلحات التكشيف من أدوات أو لغات 
تكشيف معدة ومجهزة مسبقاء فإن نظم تكشيف اللغة الطبيعية تنتقي المصطلحات 
التي تستخدم للتعبير عن الوحدات المكشفة مباشرة من النصوص التي يتم تكشيفها 
دون الاعتماد على أدوات مقيدة لضبط المصطلحات والتحكم فيهاء سواء تم هذا 
الاختيار يدوياً من قبل المكشف أو آلياً من خلال برنامج للحاسب الإلكتروني. 


تستند هذه النظم إلى مبدأ أساسي هو أن مؤلفي الوثائق عادة ما يستخدمون 
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مصطلحات محددة للتعبير عن الأفكار التي يريدون توصليها. وهذه المصطلحات عادة 
ماتكون شائعة ومعروفة فى المجالات التى يعملون بها. وينطبق هذا المبدأ بشكل أكثر 
دق على oN Lowell‏ لا gl pill‏ ج Of inns‏ ا ق tale‏ ا و مرا 
مجتمع القراء من خلال لغة شائعة ومعروفة لجميع المتخصصين في هذه المجالات. 
بالتالي يكون إقحام لغة وسيطة (اللغة المضبوطة) في هذه العملية ol‏ | اصطناعيا ينتج 
عنه وجود حاجز بين المؤلف والقارئ يتمثل في تلك اللغة الاصطناعية. 


فبالنظر إلى عملية التكشيف اليدوية التي تعتمد على الجهد البشري نجد أنه من 
الممكن التعرف إلى المفاهيم التي تتناولها الوثائق من خلال التحليل المفاهيمي 
للمحتوى المحوري في الوثيقة» والذي يظهر في مواضع محددة مثل العناوين وقوائم 
المحتويات والمستخلص ورؤوس الموضوعات الجانبية ومقدمة النص.. الخ. ومن 
خلال فحص تلك المواضع وتحديد الأهمية النسبية (التي عادة ما تستخدم فيها 
معايير كمية وكيفية» مثل تردد المصطلح وأهمية المصطلح للمستفيدين وعلاقته بدور 
المؤسسة)» لكل مفهوم ورد في تلك المواضع يحدد المكشف المصطلحات التي 
تستخدم في تكشيف الوثيقة. وعلى افتراض أن النص متاح في شكل إلكتروني» بالتالي 
يكون من السهل إعداد برمجيات مصممة خصيصا لكي تقوم بالتكشيف الاشتقاقي من 
خلال الاعتماد على المبادئ السابقة نفسها مثل تردد المصطلحات «Term Frequency‏ 
موضع المصطلح ‘Term Position‏ وغيرها من المعايير التي يمكن الاعتماد عليها في 
بناء خوارزميات تحدد أهمية المصطلح بالنسبة للوثيقة التي يتم تكشيفها. 

ويمكن تتبع بداية نظم التكشيف الآلي المعتمدة على مبدأ تردد المصطلحات إلى 
الخمسينيات من القرن العشرين وخاصة أعمال لوهان وباكسندال. فقد شهدت تلك 
الفترة بدايات الاعتماد على الحاسب الإلكتروني في إعداد النصوص للنشر. من هنا 
بدأت فكرة استخدام الحاسب الآلي في عمليات البحث والاسترجاع في الظهور» حيث 
وجد أنه مادامت النصوص متاحة أصلاً في شكل إلكتروني» يمكن الاعتماد على هذه 
النصوص الإلكترونية في عمليات التكشيف والاستخلاص والاسترجاع. من ثم فإن 
التطورات في مجال الحاسبات الآلية ساعدت بشكل كبير على تكشيف النصوص آليا 
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بالاعتماد على اشتقاق المصطلحات من اللغة الطبيعية التى يستخدمها المؤلفون فى 

التعبير عن أفكارهم بشكل أكثر سهولة وسرعة. كما أنه أقل في الكلفة من نظم التكشيف 

اليدويةء ما يحقق فعالية وعائداً من خدمات التكشيف والاستخلاص )1958 (Luhn,‏ 
وقد ساعد على تطوير نظم اللغة الطبيعية عاملان أساسيان هما: 


1. التطوير المذهل فى تقنيات الحاسب SV‏ التى ساعدت على تخزين النصوص 
الكاملة تلكتب والدوريات وغيرها من أوعية المعلومات حتى أصبح مجال 
النشر الإلكتروني هو النمط السائد عالميا في النشر والتوزيع» ما ساعد على 
تيسير معالجة النصوص من حيث حجم الاختزان وسرعة المعالجة. 

2. التطور المذهل في مجال البرمجيات» والذي ساعد على إعداد برامج 
مصممة خصيصاً لكي تقوم بعمليات التكشيف الآلي» ولا شك أن هناك نظم 
استرجاع معلومات تستطيع الآن معالجة النصوص باللغة الطبيعية بدرجة 
عالية من الدقة والكفاءة. 

وقد ساعد استخدام نظم اللغة الطبيعية في عمليات التكشيف على التخلص 

من عمليات البحث المفوض الذي يقوم فيه وسيط بين نظام الاسترجاع والمستفيد 
بعمليات البحث والاسترجاع» حيث أصبحت معظم نظم استرجاع المعلومات OV‏ 
تقضمن fled ol gals‏ صديقة للمستفيد يمكن من LIME‏ التفاعل بين المنستغفيد 
والنظام دون الحاجة إلى وسيط يساعد على إعداد الاستفسارات وبناء استراتيجيات 
البحث وإجراء البحث نيابة عن المستفيدين. 


إذأ فاللغة الطبيعية هي اللغة التي يستخدمها البشر في الحديث والكتابة» وعند 
تطبيقها في نظم استرجاع المعلومات يتم اشتقاق المصطلحات من الوثائق للتعبير 
عن المفاهيم ومضمون ومحتوى الوثائق. وتعتمد عملية الاشتقاق على أساليب 
رياضية أو إحصائية لتحديد أهم المصطلحات المستخدمة بالوثائق للدلالة على 
المفاهيم. ولا تحتاج نظم تمثيل واسترجاع المعلومات إلى بذل مجهود لتحديد 
أو تعريف المصطلحات سواء من الناحية البنائية Syntax‏ أو الدلالية Semantic‏ أو 
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العلاقات المتداخلة Interrelationships‏ بين المصطلحات. فاللغة الطبيعية تشير إلى 
ما يستخدمه الناس في التعبير عن المعلومات أو صياغة الاستفسارات دون الرجوع 
إلى لغة مضبوطة لتقنين المصطلحات. 


> 5.2.1 طرق التمثيل باللغة الطبيعية 
وتوجد ثلاث طرق أساسية لاستخدام اللغة الطبيعية بصفة عامة لأغراض تمثيل 
واسترجاع المعلومات هى كالتالى: 


> 5.2.1.1 اشتقاق الأجزاء 


تعتمد هذه الطريقة على تحديد أهم المصطلحات الواردة في الوثيقة واشتقاقها 
من أبرز الأجزاء التي تمثل المحتوى أو التي يركز عليها منشئ الوثيقة. وتعد العناوين 
أهم أجزاء الوثائق» لذلك يتم توظيفها في تحديد أهم المصطلحات التي تعبر عن 
محتوى الوثائق. وقد استخدمت العناوين في تمثيل محتوى الوثائق من خلال 
بناء كشافات العناوین» والتى ابتكرها لوهان هانز بيتر Luhn Hans Peter‏ فى بداية 
الستينات من القرن الماضي. وقام بتطبيقها على البطاقات المثقبة باستخدام آليات 
المضاهاة الضوئية والميكانيكية في مكتبات مانشستر في عام 1864. وتعد كشافات 
العناوين (PE‏ فريداً لمايطلق عليه كشافات التباديل -Premuted Index‏ ويشير 
المصطلح إلى تطبيق مفهوم التدوير ومبداً التباديل الدائرية cyclic permutations‏ 
للرؤوس» ما يتيح للمستفيد البحث عن أي كلمة من الكلمات الواردة في الرأس. 
وقد تم تطبيق هذا المبدأ على عناوين الوثائق» ونتج عن هذا الأسلوب ثلاث طرق 
الطبيعية وهي: 

ء كشاف الكلمات المفتاحية فى السياق Key Words In Context (KWIC)‏ 

Key Words Out of Context (KWOC) المفتاحية خارج السياق‎ ANSI Gis ء‎ 


Key Words Added to Context (KWAC) كشاف الكلمات المفتاحية المضافة للسياق‎ e 
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كما يستخدم مع اشتقاق عبارات الموضوع Topic Sentence‏ أو غيرها من الأجزاء 


المهمة التي تأتي في صورة عبارات وجمل يمكن أن تستخدم في تمثيل الوثيقة 
.(Luhn, Hans Peter, 1960)‏ 


> 5.2.1.2 اشتقاق المصطلحات 


تعتمد تلك الطريقة على اشتقاق كلمات من أي جزء من أجزاء النص فيما يطلق 
عليه التكشيف الاشتقاقى Indexing Derivative‏ وعادة ما يتم تطبيق خوارزميات 
متنوعة لتحديد أهم المصطلحات الدالة على المفاهيم التي تناولتها الوثيقة. ولعل 
أبرز هذه الخوارزميات ما يلى: 

Term Frequency تردد المصطلحات‎ - 

Term Position مواضع المصطلحات‎ - 


Term Frequency Vs. Psition المصطلح فى المو ضع‎ Bie جه‎ 


N gam  ننزولا‎ - 


- وزن المصطلح Term Wight‏ 
وتستخدم كل هذه الأساليب الإحصائية في تحديد أهم المصطلحات الدالة على 
المفاهيم التي تعالجها الوثيقة» بالاعتماد على فرضية أساسية هي: أنه كلما ارتفعت 
معدلات تردد مصطلح معين في وثيقة معينة» فإن هذا يعد مؤشراً أساسياً على أهمية 


هذا المصطلح في هذه الوثيقة. 
> 5.2.1.3 اشتقاق الأسئلة 


يستخدم هذا الأسلوب في نظم الرد على الاستفسارات» ويعتمد هذا النموذج 
على الكلمات والعبارات de‏ مباشرة من أسغلة البشر المستخدمة فى تمثيل 
الاستفسارات -Query Representation‏ 
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وتتكون اللغة الطبيعية بصفة عامة من نوعين من الكلمات هما: 
e‏ الكلمات الفريدة Significant words‏ 
e‏ الكلمات الوظيفية Function words‏ 


الكلمات الفريدة هي الكلمات التي تستخدم كمصطلحات تحمل معاني ودلالات 
موضوعية» أما الكلمات الوظيفية فهي الكلمات التي تشير إلى حروف الجرء 
التذكير والتأنيث» حروف الوصل» oi‏ التعريف Articles, Proposition ely‏ 
Conjunction‏ مشل فى اللغة الإنجليزية an, a, the, and, for, of, to, this, that, her,‏ 
their‏ بيع pe gl pale GBS‏ مر OLAS‏ ف غزليات ILS ge fetal‏ 
الاق الكلمات القربيد#ووضعينا فى BLES‏ واتععاة الكلمات الوظفية ووضعها 
في قائمة استبعاد Stop — Word — List‏ أو Stop List‏ 


وتستخدم قوائم الكلمات الفريدة في تحديد الكلمات التي يتم تكشيفها ومصطلحات 
الاستفسارء والتي عادة ما يتم التعبير عنها بأنها أي كلمة لم ترد في قائمة الاستبعاد. 
وتتضمن قوائم الاستبعاد الكلمات الوظيفية كثيرة التواتر إضافة إلى أي كلمة فريدة عامة 
كثيرة التواتر في مجال ما أو شائعة الانتشار في لغة البشر. فعلى سبيل المثال مصطلح 
Engineering‏ يعد مصطلحاً عاماً فى أي قاعدة بيانات هندسية إلى جانب الكلمات ذات 
الطبيعة العابرة Ephemeral words‏ مثل الكلمات الطنانة Buzz words‏ مثل من ثم» ممالا 
شك فيه» على سبيل المثال» هذه الكلمات أيضا يتم وضعها في قائمة الاستبعاد ولايتم 
Lye‏ فى عا ASE‏ ولا جا 

ويقوم كل نظام تمثيل واسترجاع معلومات ببناء قائمة الاستبعاد الخاصة به بناء 
على احتياجات المستفيدين منه وطبيعة المواد المكشفة بالنظام. كما يتم بناء قائمة 
مناظرة لقائمة الاستبعاد يُطلق عليها قائمة الذهاب List‏ 60. وتشتمل تلك القائمة 
على كل المصطاحات الواردة فى LAS‏ يعد استعاد الكلسات الواردة فى Lat‏ 
الاستبعاد والعبارات الطنانة كثيرة التواتر )1992 ١ (Rowley,‏ 


LS‏ هو الحال في قائمة الاستبعاد فإن قائمة الذهاب يتم تجميعها وقراءتها 
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آلياًء كما يتم مقارنتها بكل وثيقة يتم تمثيلها واستفسار يتم بحثه. ومن المعروف 
أن هذه القوائم تنمو بصفة دائمة مع نمو نظام استرجاع المعلومات. ومع ذلك فإن 
قوائم الذهاب أقل استخداماً في نظم اللغة الطبيعية من قوائم الاستبعاد التي تعد أكثر 
انتشاراً نظراً لسهولة إعدادها ووجود نماذج عامة لها إلى جانب انخفاض كلفة بنائها 
مقارنة بقوائم الذهاب. من ثم فإن قوائم الاستبعاد تتميز بأنها: 

ء أقل في الحجم من قوائم الذهاب 

ء سهوله إدارتها (التجميع والمعالجة) 

٠‏ قوائم الذهاب تستخدم في بناء لغات التكشيف المضبوطة مثل المكانز وقوائم 


وفي السنوات الأخيرة بدأت بعض النظم بناء قوائم كلمات Word lists‏ وهي 
قوائم مصطلحات 44 مضبوطة Semi Controlled Vocabulary‏ في النظم peed LY‏ 
واسترجاع المعلومات. وتشتمل قوائم الكلمات على المترادفات Synonyms‏ والمتضادات 
5 للمصطلحات الواردة في الوثائق التي يتم تكشيفها ويتم توظيفها في دعم 
المستفيد أثناء عمليات البحث والاسترجاع. وتعد هذه النوعية من القوائم نموذجا فريدا 
لقوائم الذهاب التي تستخدم في ضبط عمليات البحث للتغلب على مشكلات الترادف 
والاشتراك اللفظي والبحث الشامل التي تواجهها نظم اللغة الطبيعية. 

وتقوم العديد من نظم استرجاع المعلومات على الإنترنت مثل محركات بحث 
الويب ببناء قوائم ذهاب وقوائم كلمات لاستخدامها في ضبط المصطلحات وضبط 
دلالتها. فمع النمو الهائل للويكيبيدياء أصبح من الممكن اعتماد قوائم مصطلحاتها 
كنموذج أساسي لقوائم الكلمات التي يمكن أن تكون أكثر كفاءة من أي أداة أخرى. 
> 5.2.2 أسلوب عمل نظم تكشيف اللغة الطبيعية 


تعتمد تلك النظم ببساطة على أنظمة التكشيف الآلية التي تقوم بإحصاء عدد 
مرات تردد المصطلحات في النص من خلال اتباع الخطوات التالية: 
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1. إعداد ملف بالكلمات المستبعدة Stop List‏ يشتمل على الكلمات كثيرة 
التواتر More Frequently Repeated Terms‏ فى النصوص والتى لا تحمل 
دلالة اصطلاحية مثل حروف الجر أدوات التعريف والتذكير والتأنيث وغيرها 

2. يقوم نظام التكشيف الآلي بقراءة كلمات النص أولاً لاستبعاد الكلمات التي 
تتطابق مع الكلمات الواردة في قائمة الاستبعاد. 

يساعد استخدام قوائم الاستبعاد على تحقيق ما يلي: 

e‏ تصغير حجم الكشاف. 

٠١‏ سرعة عملية التكشيف. 

° الفعالية» حيث لا يتضمن الكشاف إلا الكلمات القابلة للبحث. 

ومن الجدير بالذكر أنه عند تكشيف أنواع معينة من النصوص التي يكون لكل 

كلمة فيها أهمية ودلالة معرفية مثل النصوص الدينية» التشريعات» المعادلات 
الكيمائية والرياضية.. الخ» لا يتم استخدام قوائم الاستبعاد أثناء عمليات التكشيف. 

3. يقوم نظام التكشيف الآلي بحساب عدد مرات تردد كل مصطلح في الوثيقة 
ثم ترتيب تلك المصطلحات وفقاً لعدد مرات ورودها في النص» بحيث ترد 
المصطلحات الأكثر تردداً على قمة القائمة تليها المصطلحات الأقل فالأقل. 

4 يتم اختيار مجموعة محددة من المصطلحات Las,‏ لنقطة القطع Cutoff‏ 
Point‏ المحددة بالنظام. وهي النقطة التي تحدد عدد المصطلحات التي 
يتم اختيارهاء ويمكن أن تعتمد تلك النقطة على مجموعة من المعايير أو 
الاحتمالات منها: 

° رقم مطلق لعدد المصطلحات مثال اختيار أكثر 20 مصطلحاً تردد في الوثيقة. 


E E EEE 
الحجم أكبر من عدد مصطلحات الوثائق ق الأقل حجماً . مثال وثيقة حجمها‎ 
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0 كلمة نختار أعلى 20 مصطلحاً أما إذا كان حجم الوثيقة 2000 كلمة فيتم 


اختيار أعلى 10 مصطلحات لوصفها. 
٠‏ اختيار المصطلحات التى وردت فى أماكن محددة من الوثيقة و/ أو عدد مرات 
ورودها فى تلك الأماكن. 


5. يمكن لبعض البرامج الأكثر تعقيداً أن تنتقي أو تشتق العبارات التي تظهر 
بشكل متكرر في بعض النصوص. لذلك يمكن وصف الوثائق باستخدام 
مزيج من المصطلحات والعبارات. وتجدر الإشارة إلى أن عدد مرات ظهور 
العبارة يكون أقل أهمية من عدد مرات ظهور المصطلح. وبدلا من اختيار 
المصطلحات والعبارات يمكن لبعض البرامج أن تقوم بتجريد الكلمات 
واختيار جذور تلك الكلمات فقط Word Roots‏ وذلك بالاعتماد على برنامج 
للجذع يعرف ب Stemmer‏ لذلك فإن جذر Heat LAS‏ يمكن أن Guy‏ 
ويخزن لكل بدائل هذه الكلمة التى تشمل Heat, Heater, Heating, Heated‏ 
بالتالي فإن برامج الجذع pices g‏ لحذف نهايات وبدايات الكلمات 
Word Suffix and Prefix‏ مشل -ing, ed, ied, pre, sub, 5, es, ies‏ وفى اللغة 
الغربية نجد أنه يمكن جذع بدايات ونهايات الكلمات مثل الألف Ul;‏ 
الألف والنون (للمثنى) الياء والنون والألف والنون للجمع إلى آخره من 
المتطلبات التي تفرضها طبيعة وبنية الكلمات في اللغة العربية. 


6. يمكن إعطاء الكلمات أو الجمل أو جذوع الكلمات وزناً معيناً يعكس عدد 
مرات تردد المصطلح في الوثيقة. على سبيل المثال يمكن إعطاء الجذع Heat‏ 
وزناً معيناً يحدد أنه ظهر في نص معين 12 مرة. وتصلح عملية جذع الكلمات 
بشكل أكبر للغات اللاتينية» حيث توصف بأنها لغات لصيقة غروية. بمعنى 
أنها تستخدم أسلوباً محدد لاشتقاق الكلمات بإضافة حروف معينة في بداية 
الجذر أو نهايته في معظم الأحوالء بينما يلاحظ أن اللغة العربية لا تخضع 
لهذا النموذج اللصقي في بناء الكلمات» حيث تعرف بأنها لغة اشتقاقية نظرا 
لتنوع الصيغ الخاصة بمعالجة مفردات اللغة مثل الفعل والفاعل والمفعول. 
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حيث تعتمد اللغة العربية على قواعد متنوعة ومتشعبة بصورة كبيرة تميل إلى 
السماع أكثر منها إلى الثبات في البنية في معالجة المفردات» كما هو الحال 
في معظم مفردات اللغات اللاتينية. 


> 5.2.3 أنماط نظم تكشيف اللغة الطبيعية 


توجد أنماط عدة لنظم تكشيف اللغة الطبيعية ولكن أشهرها وأكثرها انتشاراً على 
الإطلاق الأنماط التالية: 

1. كشافات أو فهارس النصو ص Concordances‏ 

Permuted Title Indexes كشافات العناوين التبادلية‎ .2 

Automatic Indexing ol التكشيف‎ 3 

وسنتناول فيما يلي بإيجاز هذه الأنماط المختلفة. 


< 5.2.3.1 كشافات النصوص 


تعد كشاقات التضصوضن للوثائق التي تعضمن Les peal‏ مهمة مكل الصوض الدينبة» 
والتي يكون لكل كلمة في النص قيمتهاء بحيث لا يمكن استبعادها من عمليات 
التكشيف. بالتالى فهذه الكشافات Y‏ تستخدم قوائم استبعاد» حيث يتم تكشيف 
كل كلمات النص دون تمييز بينها. كما تستخدم هذه الكشافات أيضاً مع النصوص 
الصغيرة مشل الدساتير والتشريعات والقرارات والوصفات.. إلخ. 


ويتطلب إعداد كشافات النصوص أن يكون النص المُكشف مُتاحاً في شكل مقروء 
آلياً. وقد ساعد النشر الإلكتروني على توافر عدد كبير من النصوص في صيغ رقمية» ما 
ييسر عمليات تكشيف نصوصها. ويتيح هذا النوع من الكشافات الوصول إلى المعلومات 
الدقيقة المتضمنة في النصوص الكاملة للوثائق وليس مجرد إشارات ببليوجرافية إلى 
الوثائق. كما ييسر هذا النوع من الكشافات عمليات التحليل اللغوي للنصوص للتعرف 
إلى تردد الكلمات والمصطلحات في سياقات معينة بهدف تحديد الدلالات المختلفة. 


اللغة في تمتيل واسترجاع المعلومات 


ويعد «المعجم المفهرس لألفاظ القرآن الكريم» لمحمد فؤاد عبد الباقي. 
و«المورد المفهرس لألفاظ القرآن الكريم» لروحي البعلبكي» من أشهر أنواع كشافات 
النصوص في اللغة العربية. وتجمع هذا المعاجم ألفاظ القرآن» وترتب موادهاء كما 
تضع الكلمة وأمامها الآية الكريمة التي وردت فيهاء مع التنبيه على المكي والمدني 
من هذه الآيات وحسب ما ورد فى المصحف» الذي تولت الحكومة المصرية طبعه. 
وقد رقي عبد اللاي جي STAN BUST‏ الكريم ترتيباً هجائياً حسب مواد الكلمات 
الدالة» ثم سرد الألفاظ» وذكر تحت كل لفظة عدد مرات ورودها في القرآن حسب 
الصيغة الإعرابية والاشتقاقية التى وردت بها. فإذا وردت الكلمة بصيغة واحدة فإنه 
برك الإشارة إلى سدوسرات ورودهنا Lue)‏ الديي 1994( 


وتجدر الإشارة إلى أن المستشرق جوستاف فلوج لء هو أول من حاول إعداد 
معجم مفهرس لألفاظ القرآن الكريم» حيث قام بإصدار فهرس موضوعيٌ SOY‏ 
القرآن الكريم سمّاه «نجوم الفرقان في أطراف القرآن» في نحو عام 1868 (عام 
7ه) ‏ وقصد من وراء هذا المعجم - بحسب رأي بعض الباحثين - إعادة ترتيب 
القرآن حسب الموضوعات» وقد مهد لمشروعه في تأليف معجمه الموضوعيّ «نجوم 
الفرقان في أطراف القرآن» بطباعة مصحفي كامل لكي يستعين به في معجمه» فوقع 
في أخطاء فاحشة وكثيرة جداً في Le‏ الآيات» فجعل ما ليس برأس آية رأس AY‏ 
ووقع الخلل في معجمه بشكل ظاهر ce pale)‏ 2012( 

ومن أهم عيوب كشافات النصوص» خصوصاً اليدوية منهاء أنها تحتاج إلى وقت 
وجهد كبيرين لإنجازهاء إضافة إلى صعوبة بنائها وتضخم حجمهاء حيث يتعدى 
حجمها في أحيان كثيرة حجم النصوص الأصلية. 


> 5.2.3.2 كشافات العناوين التبادلية 


يعتمد هذا النوع من كشافات اللغة الطبيعية على تكشيف كلمات العناوين بعد 
استبعاد الكلمات الواردة فى قائمة الاستبعاد. وتستند كشافات العناوين إلى فكرة 
أساسية مفادها أن عناوين الوثائق تحتوي على كلمات أو مصطلحات تدل بشكل دقيق 
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على المحتوى الموضوعي للوثيقة وخصوصاً في المجالات العلمية والتكنولوجية. 
بالتالي يمكن استخدام هذه المصطلحات في وصف المحتوى الموضوعي الوثائقي. 
ولهذا النوع من الكشافات ثلاث أنماط أساسية كما أشرنا هي: 


-keyword In Context (KWIC) كشافات الكلمات الدالة فى السياق‎ - 
-keyword Out Of Context (KWOC) السياق‎ gis كشافات الكلمات الدالة‎ — 
keyword Add to Context (KWAC) كشافات الكلمات الدالة المضافة للسياق‎ - 


أ. كشافات الكلمات الدالة في السياق 

يتم تكشيف الكلمات الدالة في عناوين الوثائق» حيث ترد الكلمة ضمن سياق 
الغخوان رة عن غيرها فخ الكلمات. 

مثال مقالة بعنوان 

«استخدام الحاسب الآلي في تطبيقات المكتبات» وأخرى بعنوان 

«تطبيقات تكنولوجيا المعلومات في المكتبات» 


يشتمل كلا العنوانين السابقين على كلمة واحدة يمكن أن ترد بقائمة الاستبعاد هى 


(في) بالتالی يكون شكل الكشاف ALS‏ 
استخدام الحاسب الآلي في تطبيقات المكتبات )1( 
استخدام الحاسب الآلي في تطبيقات المكتبات )1( 
تطبيقات تكنولوجيا المعلومات في المكتبات )2( 
تطبيقات تكنولوجيا المعلومات في المكتبات )2( 
استخدام الحاسب الآلي في تطبيقات المكتبات )1( 
تطبيقات Le J pS‏ المعلومات فى المكتبات )2( 
استخدام الحاسب الآلن فى lids‏ المكتبات )1( 


تطبيقات تكنولوجيا المعلومات فى المكتبات )2( 
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ب. كشافات الكلمات الدالة خارج السياق 


ترد الكلمات الدالة في هذا الشكل خارج السياق مميزة عن بقية العنوان مثال: 





























استخدام ا لحاسب ؟ في تطبيقات المكتبات الآلي 

الحاسب الآلي في تطبيقات المكتبات؟ استخدام 
تكنولوجيا المعلومات في المكتبات؟ تطبيقات 
استخدام الحاسب الآلي في ؟ المكتبات تطبيقات 
تطبيقات؟ المعلومات في المكتبات تكنولوجيا 
استخدام؟ الآلي في تطبيقات المكتبات الحاسب 
تطبيقات تكنولوجيا ؟ في المكتبات اوبات 
استخدام الحاسب JYI‏ في تطبيقات؟ المكتبات 
تطبيقات تكنولوجيا المعلومات في؟ المكنيات 














ج. كشافات الكلمات الدالة المضافة للسياق 


للوثائق وعادة ما يستخدم في حالة العناوين المضللة أو العناوين القصيرة ويندر 
استخدام هذا النوع من الكشافات حالياً. 


٠‏ مميزات كشافات العناوين 
يتميز هذا النوع من الكشافات وكشافات التباديل بصفة عامة بما يلي: 


1 سرغة وفهولة الإعداد 
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لا يحتاج إلى خبرة سواء موضوعية أو مهنية في إعداده. 

انخفاض تكاليف إعداده. 

ظهور المصطلحات الجديدة في التخصص الموضوعي بسرعة في هذا النوع 
من الكشافات» بحيث تصبح متاحة للبحث والاسترجاع» إلا أنه يتأثر بشكل 
واضح بعيوب اللغة الطبيعية كوسيلة لتكشيف وهي العيوب التي سبق ذكرها 
عن oo‏ 


> 5.2.3.3 التكشيف الآلي 


Automatic Indexing 


يستخدم هذا الأسلوب في تكشيف أجزاء معينة من النصء لعل أبرزها تكشيف 
المسمخاضات حيدق dey‏ أن «policed‏ خصوضا سسخلصات المؤلفيق SS‏ 
عدداً قليلاً من الكلمات» إلا أنها تحتوي على أكبر قدر من المعلومات الواردة في 
الوثيقة» كما أنها تصف بإيجاز محتوى الوثيقة. 


التكشيف الآلي مع استبعاد الكلمات الواردة في قائمة الاستبعاد. ثم تكشيف كلمات 
المستخلص وفقاً للإجراءات التي تم عرضها عند الحديث عن نظم اللغة الطبيعية. 
وتتميز نظم التكشيف الآلي بمجموعة من الملامح الخاصة نذكر منها مايلي: 


بالطبع يمكن استخدام التكشيف الآلي في تكشيف النصوص الكاملة للوثائق 
وهو النمط السائد حاليا في معظم نظم استرجاع النصوص الكاملة وبعض 
النظم العاملة على شبكة الإنترنت. 

تسمح نظم التكشيف الآلي أيضاً بعرض النتائج بأساليب عدة منها تقسيم 
النتائج المسترجعة إلى Le‏ فيما يعرف ب «Results Categorization‏ 
كما تسمح بتوجيه استفسارات ols‏ طبيعة خاصة مثل الاستفسارات التي 


al 
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تتطلب إجابات على أسثلة «Question Answering Query‏ كما تسمح Lal‏ 
بالاستر جاع ما بين اللغات .Cross Language Retrieval‏ 


وقد أدى ظهور شبكة الإنترنت وخاصة الشبكة العنكبوتية إلى ظهور أنماط وطرق 
جديدة للتكشيف منها استخدام أساليب تحليل الروابط وتحليل نصوص الروابط في 
عمليات التكشيفه الآلى وهو ما ستتعرقن له بالتفضيل عند الحدينث عن التكشيف 


والفرز على الويب. 
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لغات تمثيل واسترجاع 
المعلومات في العصر الرقمي 


ك5 6 مقدمة 

تمت مناقشة الملامح والخصائص المميزة لكل من اللغة الطبيعية واللغة المضبوطة 
في الفصل السابق. ويستكمل هذا الفصل مناقشة قضية اللغة في تمثيل واسترجاع 
المعلومات في البيئة الرقمية مع التركيز على المراحل التي مرت بها لغات تمثيل 
واسترجاع المعلومات» والقضايا المتعلقة باللغة الطبيعية وأهميتها في البيئة الرقمية» 
ثم يستعرض الفصل مجموعة من لغات التمثيل الجديدة في البيئة الرقمية. 


< 6.1 تطور لغات تمثيل واسترجاع المعلومات 

بالنظر إلى تاريخ نظم تمثيل واسترجاع المعلومات تعد اللغة المضبوطة أكثر 
حداثة في الاستخدام والتطبيق من اللغة الطبيعية» حيث كانت اللغة الطبيعية هي 
اللغة الأساسية في التواصل والتمثيل والوصف على مر العصور. وقد مرت عملية 
تطوير لغات التمثيل بأربع مراحل أساسية هي: 

المرحلة الأولى: ترجع تلك المرحلة إلى العصور التي سبقت ظهور أي لغة 
اصطناعية مضبوطة وذلك حتى بداية القرن العشرين» حيث كانت اللغة الطبيعية هى 
اللغة الوحيدة المطبقة في كل نظم تمثيل واسترجاع المعلومات. وقد بدأ المستخدمون 
في تلك المرحلة إدراك القيود والمشكلات التي تنتج عن استخدام تلك اللغة مثل 
عدم الثبات في التعبير» الناتج عن مشكلات اللغة الطبيعية التي سبق عرضهاء والتي 
تشمل المترادفات والمشترك اللفظى. 

المرحلة الثانية: شهدت تلك المرحلة ظهور أول لغة مصطلحات مضبوطة والتى 
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تمثلت في تطوير خطط التصنيف كنموذج للربط المسبق. كما ظهرت أيضاً قوائم 
رؤوس الموضوعات والمكاتز فى النصف الأول من القرن العشرين- وقد يدأ فى 
a‏ لجلا e te indeed‏ الشركة فى 
عمليات تمثيل واسترجاع المعلومات. 

المرحلة الثالشة: شهدت عودة اللغة الطبيعية لتصدر المشهد مرة أخرى» كنتيجة 
لتطور نظم الاسترجاع التي تعتمد على الكلمات المفتاحية والنصوص الكاملة. 
واستمر تطبيق اللغات المضبوطة في تمثيل واسترجاع المعلومات في النظم 
الببليوغرافية مثل فهارس المكتبات في هذه المرحلة» ومع استمرار استخدام نظم 
اللغة الطبيعية لمعالجة النصوص الكاملة والمصطلحات المضبوطة لتمثيل واسترجاع 
النظم الببليوجرافية واحتدام الجدل حول أفضلية كل لغة ومزاياها وعيوبها ظهرت 
العديد من دراسات المقارنة بين اللغات لتحديد أفضل البدائل. وانتهت معظم هذه 
الدراسات إلى أن كل نظام له مزاياه وعيوبه. 


المرحلة الرابعة: بدأت تلك المرحلة مع ظهور واجهات بحث اللغة الطبيعية في 
عمليات الاسترجاع. وقد استمرت اللغة المضبوطة مستخدمة في تلك المرحلة» 
ولكن في المشهد الخلفي فقط» حيث لم تعد تلك اللغات مرئية للمستفيد. وقد 
أطلقت عليها ميلستد )1995 (Milstead,‏ المصطلحات المضبوطة غير المرئية فى 
ple zl ey‏ العا رمات AVY‏ الطريعية: وقد caged‏ الطرراك Lie Del‏ في نم 
معالجة اللغة الطبيعية في تحقيق ذلك» ما أدى إلى ظهور نظم تعتمد بالكامل على 
اللغة الطبيعية مثل نظم „(West Law and Lexis Nexis)‏ 


بها لغات تمثيل واسترجاع المعلومات؛ إلا أنه يمكن القول إن هذه اللغات قد تخطت 
المرحلتين الأولى والثانية» ومازالت تعمل في المرحلتين الثالثة والرابعة. 


لغات تمثيل واسترجاع المعلومات في العصر الرقمي 


> 6.2 لماذا نحتاج إلى اللغة الطبيعية والمضبوطة معاً 
يوجد نوعان أساسيان من لغات التكشيف هما (قاسم 2000): 


٠‏ التكشيف بالتعيين: ويقصد به الجهد الفكري الذي يبذله المكشف في 
التحقق من عناصر المحتوى الموضوعي للوثيقة ثم اختيار المصطلحات أو 
المداخل الكشفية التي تعبر عن هذه العناصر» وذلك بالاعتماد على قوائم 
رؤوس الموضوعات أو خطط التصنيف أو المكانز. 


١ه‏ التكشيف بالاشتقاق: وفيه يتم اشتقاق أو اقتباس جميع المصطلحات من 
الوثيقة التي يتم تكشيفها وذلك بالاعتماد فقط على اللغة الطبيعية. 


إن الاستمرار في الاعتماد على اللغتين كأساليب لتمثيل واسترجاع المعلومات» 
LY‏ أن يكون وراءه أسانيد دعت إلى ذلك» ولعل أبرز وأهم الأسانيد والأدلة هو 
وجود مزايا وعيوب لكل منهماء والتي أبرزتها دراسات المقارنة المستمرة حتى وقتنا 
هذا. ويمكن إيجاز تلك المزايا والعيوب فى قدرة كل لغة من لخات التكشيف على 
معالجة إحدى القضايا التالية: l‏ 


> 6.2.1 قضية المترادفات 


الترادف هي المشكلة التي تنبع من إمكانية التعبير عن موضوع معين بعدة طرق 
مختلفة في وثائق مختلفة أو من جانب مكشفين مختلفين» ما يعني وجود أكثر من 
مصطلح واحد للدلالة على موضوع أو مفهوم معين. مثال لذلك: إذا أردنا التعبير 
عن مفهوم مثل التلفزيون نجد العديد من المصطلحات الدالة على هذا المفهوم 
مثل تلفزيون» تلفازء تي في.. الخ أو أردنا استخدام مصطلح واحد مقنن للتعبير 
عن مفهوم التليفون المحمول يوجد العديد من المصطلحات المتداولة أيضامثل 
المحمولء الموبايل» النقال» الجوال» الخلوي وغيرها. ولا يمكن بأي حال من 
الأحوال استخدام كل هذه المصطلحات للتعبير عن مفهوم واحد عند استخدام 
اللغة المضبوطة» بالتالي لابد من الاختيار بينها. كما أنه لا يمكن للمستفيد أو 
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الباحث أن يتذكر كل هذه المصطلحات عند البحثء ما يظهر الحاجة إلى لغة 
مقيدة تضبط المصطلح المستخدم وتحيل إليه من الأشكال غير المستخدمة. 


وتعد قضية المترادفات إحدى أهم القضايا الجدلية التي تناولتها دراسات استرجاع 
المعلومات؛ حيث تشير معظم تلك الدراسات إلى أن القدرة على معالجة المترادفات 
أحد أهم عيوب اللغة الطبيعية. وعلى الجانب الآخر عند استخدام اللغة المضبوطة في 
عمليات تمثيل واسترجاع المعلومات» فإن قضية المترادفات تتم معالجتها من خلال 
اختيار مصطلح واحد للدلالة على كل المترادفات في عمليات التمثيل والاسترجاع» 
مع بناء نظام محكم للإحالات من المصطلحات غير المستخدمة إلى المصطلحات 
المستخدمة. ويطلق على المصطلح المستخدم هنا للدلالة على المفهوم أو الكيان 
المصطلح المفضل Prefered Term‏ والمصطلحات غير المستخدمة يطلق عليها 
الكلمات غير المفضلة -Nonprefered Term‏ 


> 6.2.2 قضية المشترك اللفظى 

تيدر هة ta EEA‏ لطا فة يطلق gle‏ تمده الات :رال تعد 
أيضاً من أبرز القضايا الجدلية في مجال المقارنة بين استخدام اللغة الطبيعية في 
مقابل اللغة المضبوطة. والمشترك اللفظى يدل على المصطلحات التى تحمل الشكل 
السياق الذي يرد فيه المصطلح. 

وعادة ما يتم ترجمة مصطلح المشترك اللفظي إلى مصطلحين باللغة الإنجليزية 
هما Homonymy and Polysemy‏ حيث يشير الأول إلى مجموعة من الكلمات لا 
علاقة بينها سوى اتفاقها في الصيغة والشكل (الجناس التام)» والثاني هو تعدد 
المحتى LIS‏ وسر أشرب إلى المشترك: 

ومن أمثلة المصطلحات التي تحمل مشتركاً لفظياً وتتنوع معانيها وفقاً للسياق 
الذي ترد فيه: جبن» جبن؛ شعرء شعر؛ عين (بيت) عين الإنسان» عين الماء؛ علم 
«Science‏ علم .Flag‏ 
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ويعد سيبويه (ت 180 هجري) أول من أشار إلى قضية المشترك اللفظى» حيث 
ذكره في تقسيمات الكلام في كتابه SSG‏ «اعلم أن من كلامهم اختلاف اللفظين 
المعنيين واتفاق اللفظين والمعنى مختلف». كما أفرد بن فارس (ت 395 هجري) 
So‏ اللفطى LL‏ خاصا رع قد Sg‏ امس الاش اكا أن يرن اللقظ Sara‏ 
لمعنيين أو أكثر (محمد علي بيضون» 1997). 

بالتالي» الاشتراك اللفظي مشكلة ناتجة عن غياب التحكم في اللغة» وتعني وجود 
كلمات متشابهة فى الشكل ولكنها مختلفة في المعنى» أي الكلمات المتطابقة فى 
مفهوم مثل عطارد Mercury‏ نجد له العديد من المعاني مثل: 

0 شخصية أسطورية (إله التجارة والفصاحة عند الرومان) 

(> Uae) يدل على كوكب سيار‎ (Mercury) مصطلح‎ e 

٠‏ معدن الزئبق 

© طراز سيارات 

وتستطيع اللغات المضبوطة التمييز بين المصطلحات المشتركة لفظياً من خلال 
استخدام تبصرات تحدد المعنى أو المجال بين قوسين مثال: 

عطارد (أساطير) 

عطارد (سيارات) 

(Odes) عطارد‎ 

عطارد (كوكب) 

ولا تقتصر قضية المشترك اللفظي على اللغة العربية ولكنها تظهر أيضاً في 
الإإنجليزية» حيث يوجد الكثير من المصطلحات التى تشترك فى البنية الحرفية» 
ولكنها تدل على أكثر معنى في اللغة الإنجليزية» ولا يفرق بينها سوى السياق الذي 
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وردت فيه مثل Record, subject, drug, spring, duty,.Bank...... etc‏ 
وتؤدي ظاهرة المشترك اللفظى أو تعدد المعانى إلى غموض في الدلالة الاصطلاحية 
E de‏ ت اا ا EE‏ تيا TE‏ 
مفردة. فعلى سبيل المثال إذا قام باحث باستخدام مصطلح مثل شعر في عملية البحث 
بصورة مستقلة» من الممكن للنظام أن يسترجع عددا كبيرا من الوثائق التي ليس لها علاقة 
بالمعنى الدلالي الذي يقصده الباحث. ويرجع ذلك إلى أن المصطلحات عادة ما تكون 
غامضة في حد ذاتها ويزول عنها الغموض عندما يتم ربطها بغيرها من المصطلحات 
وعند وضعها في سياق محدد. وقد أشار كل من لانكستر وورنر Lancaster and)‏ 
(warner, 1993‏ إلى US te‏ العسوضى في ET‏ وهي عادة مشكلة نظرية أكثر منها 
مشكلة عملية» ذلك أنه نادرأ ما تجد باحثا يبحث عن كلمة مستقلة منفردة (عادة ما 

تكون غامضة) ولكنه عادة ما يربطها بكلمات أخرى تزيل الغموض عنها. 
وتعتمد LAL‏ المضبوظة غلى أساليب Cb Le pee‏ على مشكلة المشتركه 
اللفظي؛ حيث يتم تفسير المعنى المقصود للمشترك اللفظي باستخدام الهوامش التي 

ترد بين قوسين OKO‏ لتخصيص المعنى السياقي للمشترك اللفظي مثل: 
عين (عضو الإبصار) 
Duty [tax]‏ 


. [duty [responsibility] 


> 6.2.3 قضية البحث Jalil‏ 


تج هذه المشكلة عن OLS‏ الفحكم في اللخة ما يضطر السوول صن إجراء 
البحث إلى البحث بكل المصطلحات المتصلة دلالياً حتى يمكنه استرجاع كل أشكال 
ومرادفات المصطلح. بالتالي يسترجع كل النتائج الممكنة. وعادة ما تجمع اللغات 
المقيدة هذه المصطلحات المتصلة ببعضها بعضاًء إماهرميأء كماهوالحال فى 
عولط الم رمادلا كاعر الحال في Kl‏ وقراك ورزورس الموضوعات. 
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> 6.2.4 قضية البنية 


لكل لغة بنيتها الخاصة» ولكن كيف يمكن التعبير عن تلك البنية عند اختيار اللغة 
الطبيعية لتمثيل واسترجاع المعلومات؟ نفترض مثلاً أنه توجد وثيقة تم تمثيلها بثلاث 
مصطلحات باللغة الطبيعية هي: USA‏ الولايات المتحدة الأمريكية» Automabiles‏ 
السيارات» اليابان Japan.‏ فهذه الوثيقة من الممكن أن تكون عن تصدير السيارات 
اليابانية لأمريكا أو عن تصدير السيارات الأمريكية لليابان. ويتبيّن أنه مع عدم وجود 
بنية واضحة لعلاقة المصطلحات توضح البناء اللغوي؛ يصبح من الصعب تحديد 
أي دولة هي التي تُصدر للأخرى عند استخدام تلك المصطلحات الثلاثة في تمثيل 
الوثيقة» من دون أي معلومات أخرى عن البناء اللغوي (بناء الجمل). 

هذه المشكلة يمكن التغلب عليها بسهولة باستخدام رموز الأدوار في اللغة المضبوطة؛ 
وهي عبارة عن رمز أو رقم يحدد العلاقة البنائية syntax Relationship‏ بين المصطلحات. 
ففي المثال السابق يمكن أن نستخدم رقم (1) للدلالة على المصدر ونضعه بعد المصطلح 
اليابان (1) بهذا الشكل )1( Japan‏ للدلالة على أن اليابان هي المصدر. كما يمكن أن 
تخصص الرقم (2) للدلالة على الدور الثاني وهو المستورد وتخصصه لأمريكا (2) أو(2) 
USA‏ وتساعد هذه الرموز التي تسمح بها اللغة المضبوطة على معالجة قضية الخلط الذي 
يظهر نتيجة التداخل في البناء اللغويء والتي لا يمكن معالجتها في اللغة الطبيعية. 


> 6.2.5 قضية الدقة 


تسعى كل نظم تمثيل واسترجاع المعلومات إلى استخدام لغة تستطيع التمثيل 
والبحث بدقة وفعالية. ومن الواضح أن هذا الهدف يمكن تحقيقه باستخدام اللغة 
الطبيعية في تمثيل واسترجاع المعلومات لسببين رئيسين هما: 

الأول: أنه لا توجد أي معالجة إضافية مثل الشرح أو التعبير باستخدام الهوامش 
والإحالات عند استخدام اللغة الطبيعية في التمثيل والاسترجاع. 


الثانى: أنه لا توجد حاجة إلى التفسير فى اللغة الطبيعية» حيث إن المصطلحات 
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التي يتم البحث بها من جانب المستفيد هي نفسها مصطلحات اللغة المستخدمة في 
التمثيل والاسترجاع. 

وعلى الجانب الآخر فإن اللغة المضبوطة هي لغة اصطناعية وهي أقل ثراءً من 
اللغة الطبيعية فى تمثيل الوثائق واستفسارات المستفيدين. كما أن اللغة المضبوطة 
أل تخضيضا وتر إلى اليد الدافييقه ويرجع ذلك إلى إجراءات معالجة اللغة. 
ويبدو أن تفسير مصطلحات LAU‏ المضبوطة أمر لا Fae‏ منه؛ حيث إن المفهوم أو 
المعنى الدلالي لكل مصطلح يتم تحديده لخدمة نوعية معينة من المستفيدين» وقد 
يؤدي هذا التفسير إلى عدم الدقة في تمثيل واسترجاع الوثائق التي تعتمد على 
اللغة المفيرطة. 


> 6.2.6 قضية التحديث 

تعد قضبة المحدينث من أبرز Lele‏ اللغة الطببغية؛ نظ را Lad LG‏ ديتاميكية seated‏ 
على المصطلحات التي ترد بالوثائق» من ثم فهي دائمة التحديث دون تدخل بشري 
في إجراء عملية التحديث. وفي المقابل تحتاج اللغة المضبوطة إلى التحديث الدائم 
والذي يعد أبرز عيوب اللغة المضبوطة» حيث إنها تتقادم بمجرد صدورها ويزداد 
معدل تقادمها يومياً. فالمصطلحات الجديدة تحتاج إلى أن يتم استخدامها في التمثيل 
الجديدة إلى إضافة وتحديد علاقات وإحالات وتدقيق حتى يتم إدراجها في اللغة 
وينتتج عن ذلك أن مصطلحات اللغة المضبوطة عادة ما تكون متقادمة» بينما يتم 
toyed‏ ممطاحات Lal‏ الطيعية بصفة دانينةهنا يجعل الانعنسارات الفى Spied‏ 
على مصطلحات جديدة تواجه صعوبة في استرجاع الوثائق الصالحة عند استخدام 
اللغة المضبوطة» بينما يتم استرجاع الوثائق الحديثة والقديمة التي تشتمل على تلك 
باستخدام اللغة الطبيعية. 
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< 6.2.6 قضية الكلفة 


عادة ما تستغرق عملية بناء وصيانة وتعليم استخدام اللغة المضبوطة وقناً طويلاً 
في تمثيل واسترجاع المعلومات» ويتم ترجمة ذلك الوقت المستغرق في هذه 
الأنشطة إلى كلفة في نظم تمثيل واسترجاع المعلومات. وعلى الجانب الآخر فإن 
اللغة الطبيعية هي اللغة التي يستخدمها الناس في التواصل فيما بينهم؛ من ثم فهي 
لا تتطلب أي كلفة إضافية؛ حيث لا تحتاج إلى تدريب أو صيانة عند استخدامها في 
تمثيل واسترجاع المعلومات. 


> 6.2.7 قضية التوافق 


تظهر الحاجة إلى تحقيق التوافق بين اللغتين المضبوطة والطبيعية في بعض الأحيان 
في نظم ف واسعرجاء البعاونات» ها درفو الاج إلى برا Sie call‏ 
في النظام أثناء تطويره أو عندما يحتاج المستفيد إلى إجراء البحث في أكثر من قاعدة 
بيانات في الوقت نفسه. لذلك تظهر قضية التوافق في نظم اللغة المضبوطة نظراً لأن 
كل لغة من اللغات المضبوطة لها ملامحها وخصائصها المميزة لها. فعلى سبيل المثال 
قديكون من المستحيل استخدام خطة تصنيف في إجراء البحث بالفهارس المتاحة 
على الخط المباشر بدلا من قائمة رؤوس الموضوعات (مكتبة الكونجرس). في حين 
Lace al‏ يدم عاد نظام اماد على Gal)‏ الطيعية نه ele Le GY‏ إلن Gall‏ عند 
التغيير» حيث إن اللغة الطبيعية مستقلة ومتوافقة مع نفسها من حيث البنية الاصطلاحية 
ومن حيث البنية الرمزية أيضا (لا توجد رموز مستخدمة خارج إطار اللغة بحروفها 
وكلماتها التي تحمل دلالات معينة). وعادة ما يطلق على هذه القضية مصطلح التشغيل 
التبادلي المستخدم في مجال الحاسبات الآلية «(Zeng & Chan,2004)‏ 


ويمكن تلخيص مزايا وعيوب كل لغة فيما يلى: نقاط قوة ومزايا اللغة المضبوطة 
تتمشل في معالجة المترادفات والمشترك اللفظي والبناء اللغوي» والتي تعد أيضاً من 
آهم عيوب اللغة الطبيعية. وبالمثل فإن نقاط ضعف اللغة المضبوطة تتمثل في الدقة 
ادبت والكلقة والتوافىء والتى Ld‏ قاط قو ة وتم اللغة الطريعية: 


wauw الفصل‎ 


وقد أشار رويلى )116 ,1992 (Rowley,‏ إلى ما يلى: 


«يوجد اتفاق عام على ضرورة استخدام كل من اللغة الطبيعية والمضبوطة Las‏ 
كما يوجد اتفاق عام على أهمية كل منهما في تمثيل واسترجاع المعلومات بأي نظام. 
وبعبارة أخرى أن كلا منهما له أهميته في نظم تمثيل واسترجاع المعلومات. ولكن 
هل سيظل الأمر هكذا في المستقبل؟ هذا السؤال مازال مفتوحا ولم تتم الإجابة 
عليه بسهولة في بيئة الويب الذكي والدلالي» إلا من خلال تطوير أدوات تجمع ما 
بين اللغتين). 


lal 6.3 >‏ تمثيل واسترجاع المعلومات في العصر الرقمي 


تم استخدام اللغتين المضبوطة والطبيعية بالتوازي في نظم تمثيل واسترجاع 
المعلومات في عالم مصادر المعلومات المطبوعة. ومازال التدخل البشري في 
التمثيل والاسترجاع قائماً في عالم مصادر المعلومات المتاحة على الخط المباشرء 
ها أعطى اللغة المضبوطة مكانا LLU‏ فى تلك البيغة: Lol‏ فى العصدر الرقمى قان اللغة 
الله امد E‏ ف ل واس رشاع ااا رتا ا 
اللغة المضبوطة أو تستخدم على نطاق أضيق بكثير من استخدام اللغة الطبيعية. 
ويرجع ذلك إلى وجود العديد من الملامح المميزة للمعلومات في البيئة الرقمية؛ 
لعل أبرزهامايلي: 

e‏ الغالبية العظمى من المعلومات الرقمية متاحة على الإنترنت فى صورة 
نصوص كاملة» إلا أنها تفتقر إلى المراجعة والفحص» اتی essai‏ 
ا اينات es‏ الجر l‏ 

lalli ©‏ هذه البعة prda ed‏ المخلرمات 
ماعب انيه ساني 


٠‏ تنموالمعلومات فى ذلك الفضاء الرقمى بسرعة كبيرة وبمعدلات أسية 
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لذلك أصبح من الصعب تبرير استخدام اللغة المضبوطة المكلفة من حيث 
الوقت والمال في تلك البيئة التي تتسم بالديناميكية العالية والتغير السريع. من ثم 
اعتمدت معظم أنظمة استرجاع المعلومات الشهيرة المتاحة على الإنترنت (محركات 
بحث الويب) في تنفيذ مهام تمثيل واسترجاع المعلومات على اللغة الطبيعية» ولم 
تستخدم مطلقا اللغة المضبوطة» بينما اعتمد عدد قليل من تلك النظم على قوائم 
الكلمات «Word Lists‏ والتي تعد أقرب نموذج لاستخدام اللغة المضبوطة في تمثيل 
واسترجاع المعلومات في بيئة الإنترنت. 

وعلى الرغم من ذلك» فإن اللغة الطبيعية لا يجب أن تكون اللغة الوحيدة في 
تمثيل واسترجاع المعلومات على الإنترنت» حيث إن ضعف الضبط الاصطلاحي 
قد يكون السبب الرئيس لعدم دقة النتائج التي يتم استرجاعها من نظم استرجاع 
الإنترنت. وبصفة عامة فإن مهمة الضبط الإصطلاحى قد تنتقل من على عاتق 
أخصائي المعلومات ووتعملهنا dt ell‏ لنياف عن استخدا اللغة الطبيعية في 
تمثيل واسترجاع المعلومات» حيث يحتاج المستفيد في العصر الرقمي إلى التفكير 
في المصطلحات المترادفة التي تتطلبها عملية البحث. فالتفاعل المتزايد والدائم بين 
المستفيد ونظم استرجاع المعلومات على الإنترنت سوف يمكن المستفيد من أداء 
مهمة الضبط الاصطلاحي بفاعلية وكفاءة. ومع هذا التطور سوف يتحول دور أخصائي 
المعلومات من الوسيط في عملية البحث إلى المدرب على إجراءات البحث وكيفية 
الوصول إلى المعلومات» إلى جانب تقديم الدعم الفني للمستفيد في عملية البحث 
والاسترجاع. لذلك فالسؤال عن مستقبل الضبط الاصطلاحي في تمثيل واسترجاع 
المعلومات في البيئة الرقمية قد يكون من الصعب الإجابة عليه حتى الآن. مع ذلك 
فإنه توجد أربع طرق مختلفة لاستخدام الضبط الاصطلاحي في تمثيل واسترجاع 
المعلومات :(Lancater & Warner,1994)‏ 


1. استخدام اللغة المضبوطة في كل من عمليات التمثيل والاسترجاع. 
2. استخدام اللغة الطبيعية في كل من عمليات التمثيل والاسترجاع كوسيلة 
مساعدة على البحث والربط المسبق. 


الفصل السادس 


3 استخدام اللغة المضبوطة للتمثيل فقط» ويتم ضبط المصطلحات في عمليات 
الاسترجاع من خلال لغة مضبوطة مخفية أو ضمنية في النظام. 

4. استخدام اللغة المضبوطة في عمليات الاسترجاع bt‏ وقد تم تطبيق هذا 
النموذج في نظم يطلق عليها مكانز البحث فقط Search Only Theasaurus‏ والتي 
يطلق عليها Lal‏ الضبط الاصطلاحى اللاحق .Post- Controlled Vocabulary‏ 


وبالنظر إلى طبيعة وخصائص نظم تمثيل واسترجاع المعلومات في البيئة الرقمية» 
نجد أن البديل الثانى هو أكثر البدائل ملاءمة للتطبيق فى تلك البيئة» حيث إن النموذجين 
الثالث والرابع يعملان على تخزين اللغة المضبوطة على الخط المباشر لدعم عملية 
البحثء والتى تبدو وكأنها بديل يمكن استخدامه لضبط المصطلحات عند الحاجة. 
ورغم ذلك فإن مجال تمثيل واسترجاع المعلومات قد شهد في السنوات الأخيرة 
ظهور مجموعة من اللغات الجديدة مثل التقسيم إلى الفئاتء الفئات الاجتماعية» 
الأنطولوجيات. ومع أن لكل لغة من هذه اللغات ملامحها المميزة» فإن جميع هذه 
الأدوات تم تطويرها لأغراض التمثيل والاسترجاع في البيئة الرقمية. 


> 6.3.1 علم التقسيم 
تم مناقشة هذا المصطلح في الفصل الثاني باختصاره وتفصيلاً اشتق المصطلح 


Taxonomy‏ من الإاصل اليوناني taxis‏ والذي يعني الترتيب أو التصنيف ويستخدم 
المقطع nomos‏ في الدلالة على القانون أو العلم. من ثم فإن المصطلح يشير إلى علم 
التقسيم إلى فئات أو علم االتقسيم. وقد استخدم المصطلح في بدايته في علم الأحياء 
للإشارة إلى تصنيف الكائنات الحية (الحيوانات والنباتات)» ثم اكتسب المصطلح 
دلالة أوسع من معناه الضيق في علم الأحياء؛ حيث يشير حالياً إلى تصنيف الأشياء 
وامتد مفهومه إلى كل العلوم. وقد أشار جيلشرست )2003 (Gilchrist,‏ إلى أن أول 
استخدام للمصطلح بمعناه الحديث ظهر سنة 1997 في مقالة عن ياهو Yahoo‏ والذي 
يعد من أوائل أنظمة البحث في الإنترنت. وقد اشتهر بأنه أفضل دليل بحث استخدم 


نموذج التقسيم إلى فئات (أو علم االتقسيم). 
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وترجع جذور ر مصطلح علم التقسيم إلى خطط التصنيف والمكانزء فكما هو الحال 
في نظم التصنيفء تقوم أدوات (علم التقسيم إلى (OLE‏ بتعريف فئات محددة مسبقاً 
لإجراء عمليات التقسيم إلى فقات» وفقاً لقواعد علم التصنيف. وتعتمد نظم التقسيم 
إلى فئات على استخدام مستويات متنوعة من العرض - باستخدام النموذج الهجائي 
الرقمي talphanumenic‏ حيث لا تعتمد على نظام تصنيف محدد. 3g.‏ يتم التعبير عن 
العلاقات الترابطية بين الفئات باستخدام wee gl‏ الهجائي لكل مستوى» وذلك بمضاهاة 
أسلوب العرض والبناء الشائع في المكانز. وعلى خلاف خطط التصنيف والمكانز لا 
يستخدم علم التقسيم أي آلية أو نظام للإحالات» ما يضعف من وظيفته كنظام للضبط 
الاصطلاحي. وتعمل أدوات هذا النموذج على تيسير عملية التقسيم إلى فقات لدعم 
عمليات التصفح» والذي يعد أحد أهم نظم الاسترجاع بعد البحث. ويعد هذا النموذج 
فعالا وجذابا لمعلومات المؤسسات التي تسعى إلى بناء بوابات خاصة لتمثيل واسترجاع 
المعلومات» إلى جانب تطبيقاته في أدلة بحث الإنترنت -(Gilchrist,2003)‏ 


ولعل أبرز أسباب استخدامه في بناء بوابات الشركات هو أنه نظام يساعد على 
استيعاب وتمييز المصطلحات التي تستخدمها الشركات والمؤسسات التجارية» 
إضافة إلى أنه أقل كلفة من أي عملية بناء وصيانة لغة مضبوطة مثل المكانز. ويُعد 
دليل البحث ياهو Giryahoo.com)‏ أبرز نموذج لبناء تلك الأدوات وأكثرها شمولاً 
على الإنترنت )2006 .(Zhonghong, Chaudhry & Khoo‏ وتجدر الإشارة إلى أن 
دليل البحث ياهو قد تم إغلاقه بعد عشرين عاماً من تشغيلة من 1994 حتى عام 
2004« وتحول إلى بوابة بحث متكاملة تعتمد على محرك بحث وخدمات البوابات 
th‏ بي بسار كلدل toa you gay‏ يتويد ا بال ی و ا 
لور oe oe So el age mi‏ 
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تم وصفه في الفصل الثاني بأنه العلم الذي يعتمد على أساليب علم التصنيف التي 
تتم من خلال تفاعل الإنسان مع النظام )2007 .(Human System Interaction Vander,‏ 

ويقسم بيتر (2009 (Peters,‏ علم المصطلح الاجتماعى إلى ثلاث فئات هى 
(pos‏ 

Broad Folksonomy är) 5! الفوكسونومى‎ - 

هي أدوات تتيح لمنشئ المصدر والمستفيدين الآخرين إضافة التعليقات والكلمات 
الدالة على المصدر سواء كان (صورة أو فيديو.. إلخ) أكثر من مرة. 

Extended Narrow Folksonomy الفوكسونومى الضيقة الممتدة:‎ - 


وهي الأدوات التي تتيح لمنشئ مصدر المعلومات والمستفيدين الآخرين التعليق 
ولكن لمرة واحدة فقط. مثال على ذلك موقع Flicker‏ 
- الفوكسونومى الضيقة: Narrow Folksonomy‏ 


فى هذا النمط يكون من حق منشئ مصدر المعلومات فقط إضافة الكلمات الدالة 
والتعليقات للمصدر؛ ويكون من حق المستفيدين الآخرين البحث باستخدام هذه 
الكلمات فقط. مثال على ذلك موقع YouTube‏ . 


ويرتبط علم المصطلح الاجتماعي ارتباطاً وثيقاً بعمليات التوسيم الاجتماعي 
Social Tagging‏ والتي تعد أحد مخرجاته الأساسية» حيث يتم بناؤه بالاعتماد على 
اللوسيع الذي ينوع plate sala‏ الحا ءعمليات ال وا وعادة اال 
المصطلحات الاجتماعية شكل سحابة التوسيم Tag Cloud‏ والتي تمثل عرضا 
Lio‏ لعمليات التوسيم العى يقوم يها المسعفيدون. وتم استخدام مصطلم Jalon‏ 
التوسيمات بديلاً للمصطلحات الاجتماعية أو مرادفألها. وعلى عكس التصنيف 
فإن المصطلحات الاجتماعية لا تظهر لعرض أي علاقات هرمية بين مكوناته 
(التوسيمات). ويهتم علم المصطلحات الاجتماعية بحفظ العلاقات الترابطية 
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Associative Relationship‏ بين التوسيمات ويقوم بعرضها فى ترتيب هجائى من 
دون إحالات أو حواشي من تلك التي يتم تطبيقها في المصطلحات المضبوطة (مثل 
المكانز). من ثم فإن المصطلحات الاجتماعية لا يمكن معاملاتها بالطريقة نفسها 
الخاصة بالمصطلحات المضبوطة» والتى تمت مناقشتها سواء من حيث البناء أو 
التجميع أو حتى الوظيفة. إضافة إلى ذلك» فإن كل نظم المصطلحات المضبوطة» 
والتي تتراوح مابين خطط التصنيف إلى علم االتقسيم (التقسيم إلى CLS‏ يتم 
بناؤها بالاعتماد على أخصائي المعلومات» بينما يتم بناء وتطوير نظم المصطلحات 
الاجتماعية - والتي تعد نموذجاً جديداً للغات تمثيل واسترجاع المعلومات في البيئة 
الرقمية ‏ بالاعتماد على المستفيد النهائي ولصالحه. وذلك بغرض الاستخدام في 
بيئة الجيل الثاني للويب 2.0 والتي لا توجد لها حدود فاصلة سواء في الموضوع أو 
الثقافة أو حتى الجغرافيا )2007 (Munk & Mork,‏ 


وأثناء عملية التوسيم يمكن للمستفيدين أن يقوموا باختيار أي وسم اصطلاحي 
من المصطلحات الاجتماعية المتاحة» كما أنهم يمكنهم وضع أو اختيار أي وسم 
اصطلاحي جديد من مصطلحاتهم للدلالة على الموضوع الذي يتم وسمه. ونظراً 
لأن كل التوسيمات في المصطلحات الاجتماعية تكون في صورة روابط فائقة 
تُمكن المستفيد من تصفح المتاح من التوسيمات على المواقع من خلال روابط 
التوسيمات الفائقة بجانب إمكانية استخدامها في البحث. وقد تم مناقشة مزايا 
وعيوب المصطلحات الاجتماعية كلغات لتمثيل واسترجاع المعلومات بشكل مكثف 
في العديد من الدراسات والبحوث ولعل أبرزها: e.g. Noruzi, 2006; Speller,)‏ 
Trant, 6‏ :2007) سواء من حيث مقارنتها بعلم التصنيف والتقسيم إلى فئات أو 
من حيث علاقاتها بنظم اللغة المضبوطة. 

وبإيجاز يمكن القول إن المصطلحات الاجتماعية تحمل كل مزايا وعيوب اللغة 
الطبيعية مع إضافة ملمح واحد من ملامح اللغات المضبوطة وهو الترتيب الهجائي 
والعرض المرئي للتوسيمات. من ثم فإن المصطلحات الاجتماعية تعمل وظيفيا كلغة 
طبيعية أكثر من كونها لغة مضبوطة في بيئة تمثيل واسترجاع المعلومات الرقمية. 
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وقد لخص بيتر فئات التعليقات الاجتماعية )203 Peters, 2009, (p‏ فى الشكل التالى: 
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شكل )6.1( فئات التعليقات الاجتماعية 





> 6.3.3 الأنطولوجيات أو ale‏ المصطلح الواحد 


علم المصطلح الواحد أو الأنطولوجي استخدم في مجال الفلسفة للدلالة على 
مفهوم دراسة الوجود. وقد سك المتخصصون في مجال الحاسب الآلي وخاصة 
الذكاء الاصطناعي مصطلح الأنطولوجي في عام 1980 للإشارة إلى تجميع 
وتمثيل المعرفة عندما يتم وضع إطار مفاهيمي لمجال معين أثناء تطوير النظم 
الخبيرة (1997 , (Vickery‏ 


ويتم تعريف مصطلح الأنطولوجيا في مجال هندسة المعرفة أو بشكل أوسع في 
علم الحاسبات والمعلومات على أنه عملية التخصيص الصريح والرسمي للأطر 
المفاهيمية المشتركة )1993 (Gruber,‏ كما تم استخدامه للتعبير عن رؤية تيم بيرنر 
لي Tim Berenr Lee‏ الخاصة بالويب الدلالي» حجني :لن ge‏ أساسياً یامن مكونات 
رؤيته لبناء بيئة ويب تستطيع تمييز المعاني والدلالات من خلال الاعتماد على 
الأنطو لوجيات )2001 , .(Berner - Lee , Henler & Lassila‏ 
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وقد وصف تيم لي الأنطولوجيات بأنها مجموعة من العبارات يتم كتابتها بلغة 
إطار وصف المصادر RDF‏ والتي تحدد العلاقة بين المفاهيم وتضع قواعد منطقية 
لمسببات كل منها. ومن خلال متابعة الروابط التى تستخدمها الأنطولوجيات 
المخصصة تستطيع الحاسبات فهم المعنى الدلالى للبيانات التى تتضمنها صفحات 

ويوجد أشكال متنوعة للآنطولوجيات حصرها فيشولد )1996 , (Vschold‏ فى 
أربعة أشكال تتراوح ما بين غير الرسمية والرسمية الصارمة» وذلك من وجهة نظر 
هندسة المعرفة knowledge engineering‏ وهى كالتالى: 

النوع الأول: هو الأنطولوجيات غير الرسمية Lobes‏ والتي يتم التعبير عنها 

النوع الثانى: الأنطولوجيات غير الرسمية ذات البناء structured informal‏ 
69 وهى الأنطولوجيات التى توظف اللغة الطبيعية بطريقة محدودة وتحمل 
بنية واضحة بغرض تقليل الغموض وزيادة الوضوح في عرض المعرفة. 

النوع الثالث: يطلق عليه الأنطولوجيات شبه الرسمية Semiformal Ontologies‏ 
والتي يتم التعبير عنها باستخدام لغة اصطناعية محددة بشكل رسمي. 

النوع الرابع: هوالأنطولوجيات الرسمية الصارمة Regorously formal outologics‏ 
والتي تحدد المصطلحات بدقة باستخدام الدلالات الرسمية Formal sementic‏ 
والنظريات المرتبطة بها. 

وعلى الرغم من عدم وجود وصف واضح لنوع الأنطولوجيات المرتبطة ببيئة 
الويب الدلالي» إلا أن النموذج المحتمل للاستخدام في هذا المجال هو النوع الرابع 
المتمثل فى الأنطولوجيات الرسمية كما أشار فيش ولد )1996 , ((Vschold‏ 

وتشتمل العلاقات بين المفاهيم التي تتضمنها الأنطولوجيات: 


synonymy المترادفات‎ 
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المتضادات Antonymy‏ 
المتشابهات hyponymy‏ (التى تعبر عن العلاقات). 
الحزئيات (الجزء) والتى تعبر عن علاقة الجزء .(The Part of relation)‏ 


هذه العلاقات عادة ما يتم استخدامها في عروض إطار وصف المصادر RDF‏ 
Graph‏ والتي تستخدم في بناء الويب الدلالي (2003), -Grlchrist‏ 

إضافة إلى ذلك. فإن الأنطولوجيات لابد أن تحدد قواعد منطقية للأسباب المتعلقة 
بالمفهوم والعلاقات المرتبطة» والتي تأخذ شكلاً ثابتاً. على عكس مايتم في نظم 
المصطلحات المضبوطة التقليدية مثل المكانز» والتي عادة ما تكون العلاقات فيها 
ثابتة» فضلاً عن أنها يجب أن يكون بها آليات تعكس التعبير المتواصل عن التحديثات 
التي تتم على المفاهيم وإجراء تلك التحديثات آلياً. وتسعى الأنطولوجيات مع 
غيرها من أدوات الويب الدلالي إلى تحقيق الفهم للدلالات والمعاني التي تحملها 
المعلومات المتاحة من مصادر الويب من خلال أجهزة الحاسبات والبرمجيات 
المستخدمة في تلك البيئة. علاوة على ذلك فإن وظيفة الأنطولوجيات تختلف بشكل 
كبير عن المصطلحات المضبوطة التقليدية (المكانز» خطط التصنيف.. الخ)» حيث 
إنها تستخدم لتحقيق الفهم الدلالي لمصادر الويب باستخدام الحاسبات وليس تنظيم 
عمليات استخدام المصطلحات في نظم تمثيل واسترجاع المعلومات. 

لقد تطورت الملفات في العصر الرقمي بصورة كبيرة وتم إجراء العديد من 
البحوث والدراسات في هذا المجال على الأدوات الجديدة الملائمة لتمثيل الملفات 
مثل علم التصنيف (التقسيم إلى COL‏ علم المصطلح الاجتماعي» (التوسيم 
الاجتماعي) الأنطولوجيات. كما تجرى دراسات حول الانتقال الاصطلاحي 
Vocabulary switch‏ والذي يعد طريقة للتحول aul‏ من لغة تمثيل واسترجاع | 
لغة أخرى بالمجالات الموضوعية المختلفة. ويعد هذا التحول مجالا خصبا لحل 
مشكلات» أو إنهاء الجدل الدائر حول استخدام اللغة الطبيعية أو اللغة المضبوطة» 
فبمجرد تطبيقه سوف يصبح لدى المستفيد فرصة الاختيار بين اللغة التي يرغب في 
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تطبيقها في عملية البحث» ولن يكون مضطراً إلى الالتزام أو محدوداً بنطاق لغوي 
ميحد سدواء كان Lb gues‏ أ و Leela‏ فقسلا عن إمكائية كسر pel goad!‏ المرضوعة 
بين المجالات العلمية واستخدام كل المعلومات العلمية المتاحة بطريقة أكثر فعالية 
وكفاءة )1993 (Schatz,‏ فالتحول الاصطلاحي يختلف تماماً عن استخدام الأنماط 
التقليدية للتحول المعروضة باستخدام لغة مضبوطة غير مرئية Invisible Controlled‏ 
Vocabulary‏ في أمر بحن أمنامسييق هما: 


الأول: أن التحول الاصطلاحي يعتمد بكثافة على إجراء البحث باستخدام اللغة 
الطبيعية. 


الثاني: التحول الاصطلاحي يتعامل مع لغات تمثيل واسترجاع المعلومات في 
العديد من المجالات gl)‏ مجالات معرفية متنوعة)» بينما تتعامل المصطلحات 
المضبوطة المخفية أساساً مع الترجمة ما بين اللغتين الطبيعية والمضبوطة على الخط 
المباشر. فعلى سبيل المثال قام سشاتز Schatz‏ بتجميع فضاء مفاهيمي Concept Space‏ 
لعدد 10 ملايين مستخلص من مقالات الدوريات عبر أكثر من ألف مجال موضوعى 
تغطي مختلف قطاعات الهندسة والعلوم )1997 (Schatz,‏ وقد وجد أن هذه الفضائيات 
المفاهيمية أداة خصبة وفعالة لاقتراح التفاعل بين المصطلحات Interactive term Suggestion‏ 
والتحول الاصطلاحي. 

ويمكن القول باختصار إن عمليات التمثيل والاستر جاع IV‏ مع استخدام الدلالات 
والفضائيات المفاهيمية تعد مستقبل معالجة اللغات في العصر الرقمي. وسوف يصبح 
هذا السيناريو حقيقة مع تحقيق رؤية تيم بيرنر لي ومساعديه للويب الدلالي. 
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آليات الاسترجاع 
وتمثيل الاستفسارات 


< مقدمة 

يتناول هذا الفصل آليات البحث واسترجاع المعلومات والاعتبارات التي يجب 
مراعاتها عند إجراء عمليات البحث عن المعلومات» والتي تشمل تمثيل وصياغة 
الاستفسارات» إجراءات البحث وآلياته المختلفة سواء من حيث طريقة البحث أو 
حقول البحث» إضافة إلى آليات البحث المتقدم مثل البحث العشوائي» البحث 
الموزون» توسيع الاستفسارات» كما سيعرض الفصل أساليب اختيار آلية البحث 
الملائمة إلى جانب معايير تقييم نتائج البحث. 


> 7 آليات البحث 


Search Techniques 


يتم تصميم آليات البحث المختلفة بغرض دعم المستفيد في الوصول إلى 
المعلومات التي يحتاج إليها بفاعلية وكفاءة. ومع التقدم الكبير الذي تشهده تكنولوجيا 
وبحوث ودراسات استرجاع المعلومات تتنوع وتتطور آليات البحث والاسترجاع. 
وعادة مايتم تقسيم آليات البحث والاسترجاع إلى نوعين أساسيين هما: النموذج 
الأساسي والنموذج المتقدم. 


> 7.1 آليات البحث الأساسية 
Basic Search Techniques‏ 


يشتمل النموذج الأساسي على مجموعة آليات البحث البسيطة التي تشمل 
البحث البولينى» حساسية الحروف (Case Sensitive‏ البتر» التقارب.» البحث فى 
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الحقول. وتدعم معظم نظم استرجاع المعلومات تلك الآليات بطرق مختلفة 
ومتنوعة وسيتم إلقاء الضوء على الملامح الوظيفية لكل نمط من تلك الأنماط عند 


> 7.1.1 البحث البوليني 


search Boolean 


ينسب المصطلح بوليني Boolean‏ إلى عالم الرياضيات الإنجليزي جورج بولي 
George boole‏ الذي طور طريقة التحليل الرياضي القائمة على المنطق البوليني 
Boolean logic‏ وقد استخدم بولي ثلاثة معاملات للتعبير عن المنطق البوليني كن 
المعاملاات التي تستخدمها كل نظم استرجاع المعلومات حتى اليوم وهي AND, OR,‏ 
NOT‏ وتشير AND‏ إلى العلاقة (و) في اللغة العربية وتستخدم OR‏ للتعبير عن العلاقة 
(أو»» NOT Lal‏ فتستخدم للتعبير عن علاقة الاستبعاد (ماعدا أو باستثناء). 

ولتبسيط دلالات تلك المعاملات عادة مايتم استخدام CAND)‏ مع المفاهيم 
المتنوعة Different Concept‏ لتشكيل علاقة بين مفهومين TERMET‏ وتستخدم 
Lele)‏ أو باستثناء7101) لفصل أو استبعاد جزء صغير من المفهوم أثناء عملية البحث 
«(Smith, 1993)‏ بينما تستخدم أو (OR)‏ لتضمين كافة الدلالات ضمن المفهوم الذي 
يتم البحث عنه» بحيث يتم استخدام المترادفات والأشكال المختلفة للمصطلح 
لتغطية كافة الصيغ التي ربما يرد بها المصطلح في الكشاف أو في النصوص عند 
إجراء البحث. وعند تطبيق تلك المعاملات في أي نظام استرجاع معلومات فإن 
النظام يفترض ما يلي: 

- معامل الربط (و) AND‏ يستخدم لتضييق نطاق البحث. 

- معامل الحصر (أو) OR‏ يستخدم لتوسيع نطاق البحث. 


- معامل الاستثناء (ماعدا) NOT‏ يطبق بغرض استبعاد التتائج غير المطلوبة 
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ويستخدم المعامل AND‏ لدمج مصطلحين أو أكثر في عبارة البحث ويتطلب أن 
تكون كل المصطلحات المستخدمة في عبارة البحث موجودة في الوثيقة المسترجعة. 
فعلى سبيل المثال عبارة البحث: Filtering and Controversy‏ تسوية ونزاع 


في الوثيقة. وذلك بالاعتماد على آلية البحث وطرق إعداد الكشافات. ولن تسترجع 
هذه العبارة أي نتائج تتناول موضوعات ذات علاقة بتسوية النزاعات مثل المفاوضات 
السلمية» حظر الأسلحة نظراً لأنها لا تتطابق مع مصطلحات عبارة البحث. ويستخدم 
المعامل AND‏ في البحث عن المفاهيم ذات العلاقة التي تشكل Les‏ مفهوماً أكثر 
تركيباً أو تعقيداً. 

يستخدم معامل الحصر OR‏ لتوسيع نطاق البحث من خلال تضمين مصطلحات 
لها أشكال متنوعة وذات علاقة بالمفهوم الرئيس الذي يتم البحث عنه. وعادة ما 
يستخدم المعامل OR‏ في البحث عن المترادفات أو المصطلحات المرتبطة ببعضها 
بعضا. ويتم استرجاع أي وثيقة تتضمن أي مصطلح من المصطلحات الواردة في عبارة 
البحث. فعلى سبيل المثال عبارة البحث السابقة تسوية النزاعات إذا تم استخدام 
المعامل OR‏ فى البحث عن المصطلحين كمايلى: Filtering OR Controversy‏ 
تسوية أو نزاع» سوف تسترجع تلك العبارة أي وثائق بها مصطلح تسوية وأي وثائق 
بها مصطلح نزاع» كما LG‏ سوف تسترجع الوثائق التي ورد بها المصطلحان معا. من 
ثم فإنه من الواضح أن المعامل OR‏ يسترجع عددا أكبر من النتائج التي يسترجعها 
المعامل AND‏ لنفس العبارة ويساعد على توسيع نطاق البحث. 

معامل الاستبعاد (ماعدا أو باستثناء) NOT‏ هو معامل أكثر تعقيداً فى عملية 
الببحث إذا مامت مقارنشه بالمعامل 0۸ فعلى سبل الخال البحث عن الغبارة 
التالية: Filtering NOT Controversy‏ (التسوية NOT‏ النزاع( سوف يسترجع كل 
الوثائق التي تتناول المصطلح تسوية وتستبعد الوثائق التي تتناول مفهوم النزاع» 
فعلى سبيل المثال سوف يتم استرجاع تنقية المياه» 4,25 الهواء , Water Filtering‏ 
Air Filtering‏ ولكن سيتم استبعاد أي وثيقة تشتمل على المصطلح Controversy‏ 
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من ثم فإن المعامل NOT‏ يستخدم بغرض تحقيق عملية الاستبعاد للأجزاء 
والمفاهيم غير المرغوبة والتي يسعى المستفيد إلى استبعادها من نتائج البحث. 
ويتضح من ذلك أن المستفيد لابد أن يكون على دراية دقيقة باحتياجاته؛ OY‏ 
مصطلح تسوية باللغة العربية والإنجليزية يحمل دلالات متنوعة يحددها المفهوم 
التق فق غنه EED‏ 

يطلق على عملية البحث باستخدام معامل واحد للربط عملية البحث البسيط 
Simple Search‏ وفي حالة استخدام معاملين أو أكثر في عملية البحث يطلق عليها 
البحث المركب Compound Search‏ وعادة ما يتم ترتيب أولويات البحث عند إجراء 
بحث بوليني متعدد المعاملات وفقا للترتيب التالي: 

NOT أولاً معامل الاستبعاد‎ ٠ 

AND ثانياً معامل الربط‎ o 

OR معامل الحصر‎ Wu 

فعلى سبيل المثال عند إجراء البحث المركب عن العبارة التالية Filtering OR‏ 
Censorship AND Controversy NOT Libraries‏ «المصطلح Filtering‏ يستخدم هنا 
بمعنى استبعاد) بالتالي يتناول الاستفسار السابق موضوع: الاستبعاد أو الرقابة والنزاع 
باستثناء المكتبات» سيتم إجراء عملية الاستبعاد من البحث أولاًء أي سيتم استبعاد أي وثيقة 
تشتمل على المكتبات من كل الوثائق التي تشتمل على المصطلح استبعاد. من ثم فإن 
النظام سيبحث أولا عن الوثائق التي تشتمل على المصطلح استبعاد» ويستبعد منها كل 
الوثائق التي تشتمل على المصطلح مكتبات» ثم تجري علاقة الربط AND‏ لاسترجاع كل 
الوثائق التي تشتمل على المصطلحين Censorship AND Controversy‏ الرقابة والنزاع» 
حيث تسترجع كل الوثائق التي ورد بها المصطلحان» وأخيراً يتم الجمع بين المجموعة 
الأولى التي تضمنت الوثائق التي ورد فيها مصطلح استبعاد والتي استبعد منهاء وكل الوثائق 
التي ورد بها مصطلح المكتبات» والمجموعة الثانية التي تم الربط فيها بين المصطلحين 
الرقابة والنزاع باستخدام المعامل (أو COR‏ من ثم يمكن الترتيب كالتالي: 

Filtering NOT Libraries المجموعة الأولى‎ 
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Censorship AND Controversy المجموعة الثانية‎ 

المجموعة الثالثة نتائج المجموعة الأولى OR‏ المجموعة الثانية 

وإذالم تلب نتائج عملية البحث احتياجات المستفيد يمكنه وضع المصطلحات 
بين أقواس لتغيير الترتيب الطبيعي لعملية البحث أو تحديد الترتيب الذي يرغب أن 
تتم على أساسه العملية. ففي المثال السابق يمكن للمستفيد أن يقوم بوضع أقواس 
لتغيبر الترتينب على النخوالتالى ee‏ 

Fltering OR Censorship AND Controversy NOT Libraries (AND)‏ ونتيجة 
لهذا التغيبر في ترتيب أولويات الربط والاستبعاد والحصر ستجري عملية البحث 
رقا رتيب الأقواس في العلافات الرياضية التقليدية) سيك بدا عملية البحث 
بالمعامل 0۸ يليه الا AND‏ المعامل NOT‏ مع العلم أن العلاقات الرياضية 
تتطلب فك الأقواس SN,‏ حيث يتم فك القوس الأول (Filtering OR Censorship)‏ 
للحصول على المجموعة الأولى ثم يتم فك القوس الأكبر. ثم يتم البحث في 
نتائج المجموعة الأولى بالربط مع AND Controversy‏ المجموعة الثانية وأخيرا 
يتم استبعاد المكتبات من نتائج المجموعة الثالثة. من ثم تكون النتائج المسترجعة 
عن التسوية أو الرقابة المرتبطة بالنزاع باستثناء المكتبات. فكما هو واضح يمكن 
استخدام أكثر من قوس واحد لتحديد ترتيب معين في المعالجة بعبارات البحث 
المركب. لذلك عادة ما يطلق على البحث البوليني المركب مصطلح البحث 
المتداخل -Nested Search‏ 

وتعد آلية البحث البوليني أكثر وأهم آليات البحث التي تستخدمها كافة قواعد 
Lilo pS OULU‏ على وجه ye presi‏ سواء كانث فهارس مكتبات متاحة على 
الخط المباشر أو قواعد بيانات ببليوجرافية. ويتطلب إتقان عملية البحث البوليني 
التدريب الكافي على تراكيب المصطلحات وعلاقاتها ببعضها بعضاً والتعرف الدقيق 
إلى نظام تغطية كل قاعدة بيانات أو أداة البحث التي يتم استخدامها فى استرجاع 
المعلومات. وستتم مناقشة البحث البوليني ومقارنته بآليات البحث في محركات 
البحث في الفصل العاشر. 
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< 7.1.2 البحث الحساس (حساسية الحروف) 


توجد العديد من اللغات التي يؤثر شكل كتابة الحروف في آلية البحث والنتائج 
المسترجعة» حيث تشتمل على الحروف كبيرة Upper Cases‏ والحروف الصغيرة 
-Lower Cases‏ ومن أمثلة تلك اللغات الإنجليزية والفرنسية والإسبانية. تسمح تلك 
الآلية للمستفيد بأن يحدد بدقة شكل كتابة الحروف بالمصطلحات التى يتضمنها 


فعلى سبيل المثال المصطلح الإنجليزي Target‏ باستخدام حرف T‏ الكبير 
والمصطلح Target‏ يمثلان نموذجاً بارزاً للكلمات التي تحمل معاني مختلفة مع 
الحروف الكبيرة والصغيرة. فالمصطلح Target‏ يشير إلى مؤسسة بيع بالتجزئة وهو 
علامة تجارية شهيرة» بينما مصطلح Target‏ يشير إلى الهدف أو Gagne‏ بالتالي لا 
بد من أن يكون المستفيد على دراية أو وعي كاملين بالتمثيل الاصطلاحي وشكل كتابة 
السروف Sh‏ ال هات اي وطالب ادكه عياف 0 0 اا ا 
من ثم يستطيع المستفيد في تلك الحالة أن يحدد ما إذا كان بحاجة إلى تحديد دقيق 
لشكل الكتابة أم يقتصر على الشكل التقليدي. فإذا كان المستفيد بحاجة إلى البحث عن 
مؤسسة البيع بالتجزئة التي تحمل العلامة التجارية Target‏ فإنه في هذه الحالة لا بد أن 
يكتب المصطلح باستخدام حرف 1 الكبير. أما إذا كان المستفيد يبحث عن المصطلح 
بمعنى Target‏ الهدف أو المستهدف فإنه يجب استخدام المصطلح في حالته بالحروف 
الصغيرة. وتجدر الإشارة إلى أن التطبيقات التي تستخدم هذا النموذج محدودة وقليلة 
جداً عند مقارنتها بالنموذج البوليني. وذلك على الرغم من أن البحث بالحروف 
الحساسة يساعد على إنجاز نوع معين من البحث والاسترجاع لا يمكن لأي آلية أخرى 
أن تحققه. مع العلم أن النموذج التقليدي لإجراء هذا النوع من البحث هو وضع بين 
أقواس الاقتباس O‏ من ثم إذا كان المستفيد بحاجة إلى Target‏ العلامة التجارية فيمكنه 
وضع المصطلح بين قوسين عند إجراء البحث (Target)‏ وسيفهم النظام أن المستفيد 
يبحث عن المصطلح بهذا الشكل» كما هو وسيستبعد كل المصطلحات التي تستخدم 
الشكل الصغير للحرف ا في المصطلح „Target‏ 
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وقد اعتمدت الكثير من نظم استرجاع المعلومات على آليات التطبيع في البحث 
Search Normalization‏ والذي يؤدي إلى التوحيد وعدم التمييز بين الحروف الكبيرة 
والصغيرة» تركت مهمة التميز للمستفيد من خلال الاعتماد على سياق بحثي أو عبارة 
بحثية أكثر دلالة عن الموضوع. فيما استخدمت نظم أخرى آليات التقسيم إلى فقات» 
والتى تميز بين المعانى المختلفة للمصطلحات. 
وتجدر الإشارة إلى أن مشكلة الحروف الحساسة تظهر بصورة أكثر وضوحاً في 
حالات معالجة المتشابهات فى اللغة العربية» سواء حالات الجناس أو المشترك 
اللفظيء والتي تتطلب أن يكون النظام Lal‏ على معالجة تشكيل الحروف والتميز 
بين الأشكال المختلفة للكلمة من خلال التشكيل. وأبرز مثال لذلك عندما نبحث 
في محرك البحث جوجل عن كلمة «جبن» يسترجع المحرك النتائج التالية: 
we‏ و 
يقة عمل جبن 
فيديو يكشف خسة وججبن العناصر الإرهابية 


بالطبع يتضح من السياق أن المفهوم الوارد في النتيجة الأولى يختلف عن المفهوم 
الوارد في النتيجة الثانية» على الرغم من الاشتراك اللفظي التام في شكل الكلمة بين 
ويتضح مما سبق أن مشكلة الحروف الحساسة يقع العبّْء الأكبر فيها على 
المستفيد» وهى مجال خصب لبحوث الذكاء الاصطناعى ومعالجة اللغة الطبيعية. 


Truncation البتر‎ 7.1.3 > 


يُعرّف البتر بأنه القطع أو الاجتزاء ويوجد العديد من المصطلحات المستخدمة 
للإشارة إليه مثل البدل Wildcard‏ الجذع Stemming‏ التجريد Stripping‏ قناع 
المصطلح Term Mask‏ أو خوارزمية التضاريس -Conflation Algorithem‏ وتشير 
كل تلك المصطلحات إلى استرجاع الأشكال المختلفة للمصطلح» وذلك باستخدام 
جزء شائع أو عام بين كل تلك الأشكال المختلفة. وعادة ما تستخدم نظم استرجاع 
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المعلومات رمزاً مميزاً لعملية البتر مثل علامة الاستفهام ؟ أو النجمة # لتوجيه النظام 
إلى ضرورة استرجاع كافة الأشكال المختلفة للمصطلح. فعلى سبيل المثال عند 
البحث بالمصطلح network‏ فإن ذلك يعد توجيها للنظام باسترجاع كل الكلمات 
الأخر iS‏ للمصطلح مثل networking , networks, networkable‏ ... الخ. يوجد ثلاثة 
أنماط أساسية للبتر هي: 
٠‏ النوع الأول بتر اللواحق Suffix‏ والذي عادة ما يطلق عليه البتر الأيمن Right‏ 
10 والذي يعد الممارسة الأكثر شيوعا في عمليات البتر» مع مراعاة 
أشكال الكتابة المختلفة بين العربية والإنجليزية. 


٠‏ النوع الثاني يُطلق على بتر السوابق Prefix‏ والذي يقوم ببتر الأجزاء الأولى 
من المصطلحات ومثال على ذلك graduates‏ من الممكن أن تشير إلى 
المصطلح Postgraduate, Undergraduate.Semigraduate‏ ويطلق على هذا 
النوع البتر الأيسر Left Truncation‏ وهو نادر الاستخدام ولا توجد أنظمة 
35 يبا تدعمه في العصر الحالي وعادة ما يترك لفهم المستفيد. 


٠‏ النوع الثالث هو البتر الأوسط Infix Truncation‏ ويشير إلى بتر أجزاء من 
وسط الكلية: le Typ‏ يطلق عليه ابعر الداعلی و جد ر الإشارة إلى أن الخو 
الأوسط أحياناً يستخدم علامة الاستفهام )8( في الإشارة إلى عدم تأكد 
المستفيد من الحرف المحذوف أو رغبة المستفيد في استرجاع الأشكال 
المختلفة لهجاء الكلمات. فعلى سبيل المثال عند استخدام المصطلح clo?r‏ 
عند إجراء البحث فإن النظام سوف يسترجع المصطلحات ‘Color, Colour‏ 
كما أن البحث باستخدام Organi?ation‏ سوف تسترجع Organization AND‏ 
0 وووعادة ما يطلق على عملية البتر الأوسط مصطلح البحث 
بالحروف البديلة Wildcard‏ 


ويمكن القول إن البتر يساعد المستفيد على استرجاع الأشكال المختلفة للمصطلح 
باستخدام الشكل الشائع وتحديد مواضع الاختلافات. ويجب على المستفيد أن 
يحدد الجزء الشائع في المصطلح وأماكن الأجزاء التي يوجد بها اختلافات. وعلى 


آليات الاسترجاع وتمثيل الاستفسارات 


الجانب الآخر يجب عدم الإسراف في عمليات البتر لأجزاء كبيرة من المصطلح؛ 
حيث إن بتر مصطلح مثل catalog‏ إلى * cat‏ يؤدي إلى استرجاع كم كبير من الوثائق 
غير الدقيقة عن القطط Sle‏ وعلى الجانب الآخر فإن بتر عدد أقل من اللازم من 
الحروف قد يفقد المستفيد فرصة استرجاع وثائق مهمة. فعلى سبيل المثال استخدام 
الشكل 010 كنموذج لبتر المصطلحات الدالة على مفهوم الفهارس سوف يضيع 
على المستفيد فرصة استرجاع وثائق تستخدم المصطلح الأمريكي catalog‏ في مقابل 
استرجاع وثائق تستخدم الشكل البريطاني catalogue‏ ولتحقيق بعض التحكم في 


> 7.1.4 البحث بالتقارب 


Proximity Search 


يعمل المعامل البولينى AND‏ على تحديد المصطلحات التى يجب أن تتضمنها 
E ieee‏ الا بين كناك اط تساف رمدي pan‏ 
بعضها or‏ فعلى سبيل المثال عبارة البحث البولينية Filtering AND Controversty‏ 
(النزاع AND‏ التسوية) قد تسترجع وثائق تتضمن مصطلحات بجوار بعضها بعضاًء أو 
متباعدة مئات الكلمات عن بعضها بعضاء أو فى أي مكان بالوثيقة مثل أن يظهر أحد 
المصطلحات فى Lad NOL se‏ را لحر فى dal Wig‏ ر قد يؤدي ذلك إلى أنه ١‏ 
توجد علاقة على الإطلاق بين تلك المصطلحات المسترجعة» مايؤدي إلى استرجاع 
وثائق لا تتناول الموضوع الذي يبحث عنه المستفيد» ولحل تلك المشكلة تم ابتكار 
أسلوب بحث يعتمد على تحديد مدى التقارب بين المصطلحات ومدى الارتباط 
بينها في إطار سياق معين عادة ما يطلق عليه البحث بالتقارب أو البحث بالتجاور 
.Adjacency Search‏ 

ويسمح البحث بالتقارب للمستفيد أن يحدد بدقة مدى التقارب أو المسافة بين 
المصطلحات البحثية وعلاقاتها الموضوعية Relative Position‏ باستخدام المعامل 
مع with‏ والمعامل بالقرب near‏ وتختلف تلك المعاملات من نظام إلى نظام آخر. 
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ويشير المعامل with‏ إلى أن المصطلحين المستخدمين في البحث لا بد أن يظهرا بجوار 
بعضهماء كما وردا وبنفس الترتيب المستخدم في العبارة البحثية؛ فعلى سبيل المثال» 
العبارة البحثية Iformation with Technology‏ تشير إلى أن الوثائق المسترجعة لهذه 
العبارة لا بدأن تتضمن العبارة Information Technology‏ كما هى وليس أي شىء 
آخر RE?‏ مثل Information and Technology‏ أو ad Information‏ 5 
إضافة إلى ذلك» فإنه يمكن تحديد عدد الكلمات التى تفصل بين المصطلحات عند 
استخدام المعامل with‏ حيث يتم إضافة عداد (N)‏ ا عدد الكلمات التي تفصل 
بين المصطلحين المستخدمين في البحث N with‏ ويتم استبدال N‏ بعدد الكلمات 
0م الفاصلة بين المصطلحين وتحديد ترتيب تلك المصطلحات. 

فعلى سبيل المثال العبارة البحثية information 2 with technology‏ تسترجع 
وثائق عن 

Information technology 

Information and technology 

Information and network technology 

Information retrieval technology 

من ثم فإن هذه العبارة البحثية سوف تسترجع الوثائق التي ترد فيها المصطلحات 
المحددة بالعبارة البحثية على مسافة لا تتجاوز مصطلحين فقط. 

كما يستخدم المعامل بالقرب near‏ بنفس الطريقة التي تشير إلى أن المصطلحين الذين 
تم ربطهما ببعضهما بعضاً لابد أن يكونا متجاورين adjacent‏ ولكن على عكس المعامل 
OLS with‏ المصطلحين المستخدمين مع المعامل near‏ من الممكن أن يظهرا في أي ترتيب ما 
داما متجاورين فى النص. على سبيل المثال العبارة البحثية information near technology‏ 
تسترجع وثائق information technology ad‏ أو information‏ نوع ه[مصطاععا. 

كما يستخدم المعامل بالقرب N near‏ لتحديد عدد الكلمات التي تفصل بين 
المصطلحين المستخدمين في العبارة البحثية؛ حيث يتم تحديد عدد الكلمات 
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(1,2,3...) 8 بصرف النظر عن ترتيبها فى الوثائق والعبارة البحثية» حيث يمكن أن 
يأنبنا فى آي ترتيب ظهرا فيه فى الا ف البحث بالعبارة البحثية information‏ 
near feclinology‏ 2 يمكن للنظام أن يسترجع Li‏ من الوثائق التي تشتمل على 
المصطلحات التالية: 

information and technology 

information and networked technology 

technology and information 


technology and business information 


Juss‏ البحث searching pharse Jol‏ النموذج الأكثر Lies‏ فى نظم 
استرجاع المعلومات الحالية للدلالة على البحث التجاوري» وعادة مايستخدم مع 
النظم ال تتعامل مع الكلمات وتكشيف الكلمات -Words index‏ وبتحديد أكثر 
دقة فإن المعامل with‏ يمكن أن يقوم بإجراء بحث بالجمل المتطابقة exact pharses‏ 
0 من حيث المصطلحات والترتيب عند البحث باستخدام المعامل .near‏ كما 
يقوم بإجراء البحث عن الجملة البحثية بصرف النظر عن مواقع الكلمات أو ترتيبهاء 
ولكنه يلتزم بمدى تقاربها كما وردت في العبارة البحثية. وتقوم بعض الأنظمة بتوسيع 
تلاق pyle!‏ فى عبات البح لمل العجاور فى Spinal‏ العدية والعجاور فى 
الفقرات ope Vy‏ تحديد عدد محدد من الكلمات. 


فعلى سبيل المثال نظام ديالوج Dialog‏ لاسترجاع المعلومات عن الخط المباشر 
يسمح للمستفيد بتحديد البحث التجاوري سواء باستخدام with or near‏ في حقول 
بحثية محددة. وتجدر الإشارة إلى أن معظم نظم استرجاع المعلومات الحالية تعتمد 
بصورة أكبر على البحث بالجمل من خلال استخدام التعبير عن الجمل البحثية بين 
الأقواس المزدوجة O‏ وهو نمط مستخدم في قواعد البيانات ومحركات البحث 
المتاحة على الويب على السواء. وقد تخلت معظم تلك النظم عن تعقيدات البحث 
التجاوري باستخدام معاملات with and near‏ واستبدالها بالأقواس المزدوجة في 
الدلالة على الجمل البحثية .(pharse searching)‏ 
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> 7.1.5 البحث فى الحقول 
Field Searching‏ 


تعد التسجيلات الببليوجرافية التي يتم إعدادها لتمثيل أوعية المعلومات من 
أهم أساليب التعبير عن شكل ومحتوى الوثائق. وتتكون أي تسجيلة ببليوجرافية من 
مجموعة من الحقول التي تمثل المؤشرات الأساسية لأوعية المعلومات. وتشمل 
الحقول الببليوجرافية بيانات عن المؤلفين والعناوين وبيانات النشر والموضوعات.. 
الخ. وعادة ما ينظر إلى الحقول على أنها الوسيلة الأساسية للدلالة على معلومات 
الوثيقة مثل المؤلف والعنوانء بيانات النشر ونوع الوثيقة.. إلخ. وعادة مايتم تمثيل 
الوثائق من خلال تلك الحقول البحثية وهي المحددات الأساسية أو بدائل الوثائق 
في أي نظام استرجاع معلومات. بالتالي فإنه عندما يتم تمثيل الوثائق باستخدام 
حقول تمثشل تسجيلات أو بدائل للوثائق يمكن استخدام نفس الحقول في البحث 
عن الوثيقة. ويساعد البحث في الحقول على تحديد عملية البحث في حقل معين أو 
مجموعة من الحقول. ويعمل البحث الحقلي على تحقيق وظيفتين أساسيتين هما:- 

الوظيفة الأولى: تحديد الحقل الذي يرغب المستفيد أن تكون المعلومات التي 
بسحت عنهنا قد وردث aid‏ فعلى ستبيل الال إذا كان السعيد وبحت عن أعسال 
شخص معين مثل Hans Peter Luhn’s‏ المرتبطة بمجال استرجاع المعلومات 
information Retrieval‏ من الممكن البحث باستخدام المصطلح استرجاع 
المعلومات في الموضوع. إلا أن ذلك سوف يسترجع عددا كبيرا من الوثائق عن 
استرجاع المعلومات التي ألفها Hans Peter Luhn’s‏ وغيره في نفس الموضوع. أما 
إذا حددنا البحث باستخدام حقل المؤلف» فسوف يتم استرجاع كل وثائق المؤلف 
التي تناولت موضوع استرجاع المعلومات. مع العلم أنه قد تم الربط بين الحقليين 
البحثيين باستخدام المعامل البوليني “AND‏ 

الوظيفة الثانية: استخدام البحث الحقلي يساعد على تضييق نطاق البحث بفاعلية» 
تفترض أن باحثا قام بإجراء بحث عن موضوع علم المعلومات Information Science‏ 
فإن هذا النوع من العمليات البحثية سوف يسترجع عدة آلاف من الوثائق التي تتناول 
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الموضوع» وعدد قليل جداً من الباحثين سيكون لديهم القدرة والوقت على مراجعة 
كل T E E taxes CLs‏ لدت itp, Soil), Met‏ 
في حقول مثل سنوات النشرء اللغة» نوع الوثيقة. 

ويُعد البحث الموضوعي باستخدام الموضوعات subject‏ أو المفاهيم concept‏ أو 
المجالات topics‏ والذي يطلق عليه البحث عن مضمون المعلومات aboutness of‏ 
0 متبو Le‏ بالبحث عن موضع المعلومات ofines of information‏ الذي 
يتم تحديده من خلال الحقول البحثية هو الطريقة المثلى لإجراء البحث عن نتائج 
محددة. وتجدر الإشارة إلى أن معظم محركات البحث المتاحة على الإنترنت لا 
تتيح إمكانية البحث باستخدام الحقول» نظراً OV‏ المعلومات Y‏ يتم تمثيلها باستخدام 
بدائل حقلية للتعبير عن محتوى الوثيقة» كما هو الحال في نظم استرجاع المعلومات 
التقليدية» لذلك فإن البحث الحقلي غير قابل للتطبيق في محركات بحث الإنترنت. 


> 7.2 آليات البحث المتقدم 


Advanced Retrieval Techniques 


يتم تطبيق كل آليات البحث البسيط» في معظمء إن لم يكن كل» نظم استرجاع 
المعلومات» وفي المقابل يتم تطبيق آليات البحث المتقدم في عدد محدود واختياري 
هن ol gal‏ السك والاسترجاع أو تستخدم في الاختبارات المعملية للمقارنة بين كفاءة 
النظم. وتوجد نماذج متنوعة للبحث المتقدم سيتم تناولها بالتفصيل في الجز التالي: 


> 7.2.1 البحث الغامض 


Fuzzy Searching 


pill شه ال‎ tod LL تبط من‎ pay opel toed اا‎ ale يظلق‎ 

ga truncation‏ بعض الاختلافات الأساسية» فبينما يسمح البحث بالبتر باسترجاع 
الأشكال المختلفة للمصطلح من خلال تحديد الجزء المتشابه في عملية البحث 
ويضع علامة البتر عند الجزء المختلف أو المشكوك في صحته؛ فإن البحث 
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الغامض يستخدم في الوصول إلى المصطلحات التي يوجد بها أخطاء هجائية سواء 
عند كتابة الاستفسار أو إدخال البيانات في النظام» فعلى سبيل المثال المصطلح 
computer‏ من الممكن أن تحدث أخطاء هجائية عدة عند كتابته فيكتب compyter‏ 
or compture compiter or cometer‏ فيحتاج النظام إلى آلية لتصحيح تلك الأخطاء 
عند البحث عن تلك المعلومات» كما تظهر تلك المشكلة عند إجراء رقمنة لوثائق 
م غا راا إلى الوص اق لتم اصرف E‏ سروت 
Optical Character Recognition (OCR)‏ إلى جانب النصوص المضغوطة 
compressed text‏ التى تظهر بعض الأخطاء عند فك ضغطها Uncompress‏ فى 
حكن لحر ركه Sp‏ شري الب المي ق ا TEE‏ 
الهجاء التي تنتج عن أخطاء إدخال البيانات في التمثيل أو صياغة الاستفسارات 
أو الاختلافات في نظم التعرف الضوئي على الحروف أو النصوص المضغوطة 
Grossman & Frieder,(1998)‏ ويعد نموذج تكرار المصطلحات n-gram‏ أحد 
أهم الآليات المتخصصة في تطبيق البحث الغامض. وهو عبارة عن وضع نماذج 
لتفكيك الكلمات بطول محدد يطلق عليه n gram‏ متبوعا بسلسلة من الحروف n)‏ 
0 ...,4 ,3 ,2) في الكلمة أو أن يتم فك أو تحليل المصطلح إلى أجزاء حسب عدد n‏ 
من الأجزاء. فإذا أخذنا المصطلح Fuzzy Searching‏ كنموذج من الممكن أن تكون 
لدينا أساليب تحليل الثنائية والثلاثية التالية ‘Kowalski,(1997)‏ 

Bi-grams (n=2): fu uz zz zy 

Se ea er re ch hi in ng 

Tri-(n=3): fuz uzz zzy 

Sea aer arc rch chi hin ing 

توجد أساليب تحليل الأجزاء (n-grams)‏ الرباعية quart grams‏ والخماسية 
penta grams‏ وطرق أخرى تستخدم في الإجراءات التحليلية للاستفسارات وجودة 
إدخال البيانات والتحليل الصرفي لنظم التعرف الضوئي على الحروف والنصوص 
المضغوطة. هذا النمط التحليلي -grams‏ ليس من الضروري أن تكون له أي علاقة 
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بالمعنى الدلالي للمصطلح» على الرغم من ذلك فهو يستخدم بكثافة في نظم التدقيق 
الإملائي والتحقق من الأخطاء. 

وتستخدم خوارزميات المضاهاة لتحديد ما إذا كان هناك تطابق بين طريقة التمثيل 
والاستفسار الذي يدخله المستفيد إلى النظام» فإذا كانت كل الأجزاء n-grams‏ 
الخاصة بمصطلحات التمثيل مطابقة تماماً لمصطلحات الاستفسار لا يقوم النظام بأي 
عملية تصحیح» أما في حالة عدم تطابق جزء أو جزئين one-gram or two gram‏ يقوم 
النظام بإظهار خطأ في الإدخال (Grossman & Frieder,1998)‏ 


وقد أصبح تطبيق البحث الغامض في معالجة الأخطاء أو اقتراح التصويبات 
الممكنة فى الكثير من أنظمة الببحث» ومن الأمثلة الشائعة أيضاً لنطبيق آليات البحث 
oa la‏ انعفر مدقي الارن بال امس جك يكم مقارفة كل لا لار 
الذي يرد إلى نظام استرجاع المعلومات بأحد القواميس. وفي حالة تحديد أي 
Lae‏ بعملية الإدخال يتم تصحيح الخطأ من خلال المطابقة بالمصطلح القاموسي 
وتصحيحه. ويمكن القول فى المجمل إن البحث الغامض يساعد الأنظمة على التغلب 
على مشكلات أخطاء Leal‏ البيانات ol gee‏ فى Alar‏ التمقبل أو الامتتسارات مهن 
رفا انع الى شمن أنظاء Zoe‏ الأغطاء البجاية أو عدم دقة نظم التعرف 
الضوئي على الحروف أو أخطاء فك الضغط وغيرها من الحالات المشابهة لم يكن 
من الممكن استرجاعها دون وجود آلية البحث المجرد. 


< 2 البحث بوزن المصطلحات 
:Term weighted searching‏ 
يعرف وزن المصطلحات Gh‏ عملية إعطاء قيمة أو وزن نسبي للمصطلح المستخدم 
في تمثيل الوثيقة و/ أو استفسار المستفيد. ففي بعض الأحيان يحتاج المستفيد إلى 
تسليط ضوء أكبر على بعض أجزاء الجمل البحثية أكثر من غيرها. فعلى سبيل المشال 
في العبارة البحثية Filtering AND Controversy‏ النزاع والتسوية» قد يكون المستفيد 
أكثر اهتماما بجانب النزاع منه بجانب التسوية» بالتالي فهو بحاجة إلى إعطاء وزن نسبي 
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للمصطلح نزاع أكبر من الوزن النسبي للمصطلح تسوية» ولهذا الغرض يتم تصميم نظم 
البحث بالوزن النسبي» بحيث يمكن تخصيص درجات أو قيم للمصطلحات يطلق عليها 
الح ENE g copa nel Lande lO SL‏ تحدين الأجراء ISM‏ 
أهمية التي تحتاج إلى تسليط الضوء عليها بصورة أكبر من الأجزاء الأقل أهمية. 

ويتم تحديد الأوزان بصور مختلفة» منها وضع رمز مثل النجمة *# بجوار المصطلح 
كما هو الحال في قاعدة بيانات ERIC‏ للدلالة على أنه مصطلح أساسي أو باستخدام 
دلالات رقمية Numerals‏ سواء كانت عشرية أو صحيحة. كما تستخدم بعض النظم نظام 
درجات من 5-1 لإعطاء نقاط تدل على الأهمية حيث تشير (5) إلى أعلى درجة و(1) 
إلى أقل درجة. وبالطبع فإن عملية إجراء البحث بالوزن النسبي تتطلب أن تكون عملية 
التمثيل نفسها قد وضعت أوزاناً للمصطلحات في مرحلة التمثيل. فعلى سبيل المثال 
عند إجراء البحث باستخدام العبارة البحثية ) 6( Filtering (3) AND Controversy‏ النزاع 
)6( و التسوية (3) فإن المستفيد يتوقع أن النظام سوف يسترجع وثائق تشتمل على هذين 
المصطلحين بنفس الوزن النسبي» بحيث يكون وزن الوثائق المسترجعة للمصطلح نزاع 
تعادل 6 في حين يكون وزن المصطلح تسوية في الوثائق المتسرجعة يعادل 3. 
الذي يلبى احتياجات المستفيد. نفترض أنه تم تعيين الحد كالتالى Controversy)‏ 
AND Filtering (3‏ )6( النزاع )6( والتسوية (3). فإن الحد هنا هو 9 درجات» من ثم 
فإن أي نتائج بحد أقل من (9) حتى لو كانت الوثيقة تتناول نفس الموضوعين بأوزان 
3 للتسوية و6 للنزاع» فإنها سوف تعد وثيقة غير صالحة للاستفسار ولا تلبي الأوزان 
التي تم تحديدها في الاستفسار. 

من الواضح أن عملية تحديد قيم أو درجات نسبية للمصطلحات هي المعيار 
الأساسي لآليات البحث بالوزن. توجد العديد من خوارزميات الوزن Weighting‏ 
385 المستخدمة فى تحديد أوزان المصطلحات منها: 


مو ضع المصطلح Term Location‏ 
تقارب المصطلح Term Proximity‏ 
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TF) Term Frequency) تردد المصطلح‎ 


ITF) Inverse Documents Frequency) عكس تردد المصطلح‎ 
Individual Judgements الأحكام الفردية‎ 


وعلى الرغم من وجود كل تلك الخوارزميات التي يمكن أن تستخدم في وزن 
المصطلحات,. إلا أن الأحكام الفردية للمستفيدين أو الطريقة الحتمية Determmenistic‏ 
Method‏ أو التحديدية يمكن تطبيقها بصورة عملية من جانب المستفيد» حيث يمكن 
للمستفيد في الوقت نفسه تحديد الأوزان الخاصة بالمصطلحات في العبارة البحثية» 
دون أن يكون على دراية بأوزانها في الوثائق. وفي المقابل فإن كل الأساليب الأخرى 
لتخصيص الأوزان تعتمد على وزن المصطلحات المشتقة من الوثائق التي يتم 
تكشيفهاء لذلك فإن آليات الوزن التي تعتمد على موضع وتقارب وتردد المصطلح 
يمكن تطبيقها فقط مع نظم التكشيف بالوزن النسبي Weighted Indexing‏ . 


تعتمد نظم الوزن بالأحكام الفردية على أحكام ذاتية غير موضوعية من جانب 
المستفيد. إلا أن تطبيقها يعتمد على مزيج من العوامل التي تشمل الحاجة إلى 
المعلومات» وطبيعة نظم استرجاع المعلومات» وشكل النتائج المتوقعة من حيث 
الوزن. بعبارة أخرى» فإن المستفيد عندما يحدد وزن المصطلحات في الاستفسار 
يجب أن يراعى هذه العوامل عند إجراء البحثء لذلك فإن تخصيص الوزن فى وقت 
Ceres. hoe ee‏ الطريقة إجراءً اعتباطياً Bigs Arbitrary‏ 


وكما سبقت الإشارة» توجد العديد من معايير تخصيص الأوزان التي تستخدم مع نظم 
التكشيف بالوزن النسبي للمصطلحات أكثر من نظم البحث بالوزن النسبي. ومن ضمن 
تلك المعايير خوارزميات موضع المصطلح والتي تشير إلى مكان ظهور المصطلح في 
الوثيقة» ووفقاً لتلك الطريقة فإن المصطلحات التي تظهر في مواضع معينة من الوثيقة 
يتم تحديدها مقدماً وتخصيص أوزانها وتكون أكثر أهمية من المصطلحات التي تظهر 
في أجزاء أخرى من الوثيقة ومن أبرز المواضع التي تركز عليها هذه النوعية من أنماط 
التكشيف (العناوين) رؤوس الأجزاء. والعناوين الجانبية.. إلخ. 
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وتشير dei lt‏ تقارب المصطلحات إلى المساقة بين المضطلحات الكشفية 
في الوثيقة. وبصفة عامة كلما قلت المسافة بين المصطلحين وتقاربا في الوثيقة» 
ارتفع الوزن النسبي لتكشيف تلك المصطلحات. ee‏ اع أو النصطلهاك 
المتقاربة تحصل على وزن نسبي أكبر من المصطلحات المتباعدة في aS‏ 
کی سيل الال وحص ل مطل ارجا السارمات ای Set‏ 
في الوثيقة عندما يراد استرجاع المعلومات أكثر من مصطلحات أخرى مثل 
استرجاع المعلومات والبحث عنها. ويحصل مصطلح نظم استرجاع المعلومات 
على وزن نسبي أعلى من نظم خزن واسترجاع المعلومات أو في التمثيل والبحث 
والاسترجاع المعلوماتي وهكذا. 


وتستخلم خوارزيية ترده المسطلحات اعيبر عبن عله مرات وررة المصطلح 
في الوثيقة» فكما أوضحنا من قبل أن الكلمات التي ترددت كثيراً في الوثيقة ليس 
bt‏ أن كوخ اا لق ةعيب ةنر ا Lay‏ قد كين PS byl‏ 
Function Words‏ أو كلمات تعبيرية Expression Word‏ وليس لها أي دلالة اصطلاحية 
واسترجاعية بالوثيقة. وفي المقابل فإن المصطلحات التي يكثر ترددها في الوثيقة» 
والتي تعبر عن مصطلحات كشفية مهمة بالوثيقة لابد أن يتم إعطاؤها وزناً نسبياً 
مرتفعاً في الدلالة على مضمون الوثيقة. 

(Boa tle ey dis أن تلك المصطلحات رود ركفرة فى وثافق‎ Ss LEY ted, 
E والتصيرية‎ Lak ll على اللشيئ بين الكلمنات‎ elegy ال نات عا‎ pela alt fl ف‎ 
ee ee 
-(Salton,1989) تحصل على أوزان نسبية مرتفعة في ڌ تكشيف وتمثيل تلك الوثائق‎ 


وعند حساب تردد المصطلح في الوثيقة تتم مراعاة عدد الوثائق التي يردبها 
المصطلح في تخصيص وزن المصطلح» ويعرف هذا المقياس ب(مقابل وعكس تردد 
المصطلح ) «Inverse Document Frequency - idf‏ قفي منتصف الستينات من القرن 
الماضي» توصل العالم الأمريكي AdS‏ دون 016761002 C.W.‏ إلى وسيلة لتحديد الوزن 
النسبي للمصطلح في الوثيقة بهدف تكشيف الوثائق بصورة أفضل. وكنتيجة لأعمال 
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كليفردون حاول من بعده العديد من الإحصائيين والرياضيين التوصل إلى خوارزمية 
لتحديد قيمة المصطلح ضمن مجموعة من الوثائق. وقد سعت التحليلات في البداية إلى 
RR‏ 
لاستخدام كل المصطلحات الواردة في الوثيقة لتحديد الوزن النسبي للمصطلح ضمن 

الوثية يق ونع هنا placa Wl‏ يخرارزمية (مقابل تردد الوثائق). ويتم قياس مقابل تردد 
الوثائق بحسابات لوغارتيمية Logarithmic Calculation‏ وهو عبارة عن معدل النصوص 
والوثائق التي توجد ضمن المجموعة الكاملة للوثائق وعدد الوثائق التي تحتوي على 
المصطلح المحدد. من ثم فهي عبارة عن معدل لوغارتيمي لعدد الوثائق التي تشتمل 
على مصطلح ما إلى إجمالي عدد الوثائق بالنظام (spnrckjones,2000)‏ 


ويعني ذلك أنه كلما انخفض عدد الوثائق قى التي ورد بها المصطلح. ارتفع وزنه 
Ga eee ee‏ قق التي ورد بها المصطلح 
انخفض وزنه النسبي في تمثيل الوثيقة 

وعادة ما تستخدم خوارزمية تردد المصطلحات TF‏ مع خوارزمية مقابل تردد 
المصطلحات idf‏ ويطلق على هذه الخوارزمية تردد المصطلحات فى مقابل تردد 
الوثائق 11.101. وفي أحيان أخرى يتم مراعاة طول الوثيقة DL (Document length)‏ 
عند تطبيق خوارزمية تردد المصطلحات في مقابل تردد الوثائق» كمؤشر إضافي 
lS eed pee eee‏ 
التي ورد بها المصطلح. » فإنه كلما كانت الوثيقة أكثر طولاً من الوثائق ق الأخرىء كان 
المصطلح الذي ورد بها أقل أهمية من الوثائق ق BY‏ طولاً . فمثلاً إذا ورد مصطلح 5 
مرات في وثيقة طولها 1000 كلمة فهو أقل أهمية في هذه الوثيقة من مصلطح ورد 5 
مرات في وثيقة طولها 100 كلمة. 

وتلا Sse legis‏ دو ایا کے قاد[ رو اا 
tf.idf‏ في العديد من تجارب مؤتمر استر جاع النصوص Text Retrienal conference-)‏ 
250 للمقارنة بين العديد من الأنظمة .(spnrckjones,2000)‏ 


كما توجد العديد من آليات وزن المصطلحات الأخرى التي تم تطبيقها من جانب 
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مطوري النظم مثل الأساليب الاحتمالية Probability Appraach‏ وأساليب الاستدلال 
Inferences Approach‏ (والتي سيتم مناقشتهما (Lan‏ إلا أنها تستخدم من خلال 
المزج بينها وبين طرق أخرى مثل موضع المصطلح. والتي يتم تطبيقها مع خوارزمية 
تقارب المصطلحات في خوارزميات وزن المصطلحات. وتجدر الإشارة إلى أن 
محركات بحث الإنترنت تستخدم آليات وزن المصطلحات من خلال وضع رموز 
وعلامات بجوار المصطلحات البحثية مثل (- ,+ ,*. () الخ). 


> 7.3 توسيع الاستفسارات 


Query Expansion 


توسيع الاستفسارات إحدى آليات الاسترجاع التي تتيح للمستفيد تحسين النتائج 
المسترجعة من خلال مراجعة الاستفسارات بناء على النتائج المسترجعة التي تعطى 
المستفيد انطباعاً عن مدى دقة صياغة العبارة البحثية. وتعد عملية توسيع الاستفسارات 
عملية تكرارية وتفاعلية حيث يقوم فيها المستفيد بتعديل العبارة البحثية من خلال 
مراجعته للنتائج المسترجعة في أكثر من دورة بحثية لنفس الاستفسار. 


المعلومات الدالة التى يمكن من خلالها إعادة صياغة الاستفسار» وعادة ما تتكرر 
تلك العملية من الناحية النظرية حتى يحصل المستفيد على نتائج مرضية» وينصح 
المستفيد فى المراحل الأولى من البحث بقراءة كل العناوين والمستخلصات المرتبطة 
ببحثه حتى يستوعب كل المصطلحات الدالة على الموضوع وعلاقتها ببعضها بعضاً؛ 
حيث إن التفاعل المستمر بين المستفيد ونظام استرجاع المعلومات يساعد على 
تحسين النتائج من خلال تحسين مستوى إدراك المستفيد لمحتوى النظام. 

وقد أشار كل من ريسنك وفاوخان (Resnick & Vaughan,2006)‏ إلى وجود 
طريقتين للتعامل مع الاستفسارات في هذا السياقء الأولى هي توسيع الاستفسارات» 
أما الثانية فهى تضييق الاستفسار -Query Expanding and Narrowing‏ 


إذا كانت عملية توسيع الاستفسارات تتضمن إضافة المترادفات والمصطلحات 
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المرتبطة بعبارة البحث بغرض زيادة عدد النتائج الصالحة المسترجعة؛ فإن تضييق 
نطاق البحث يهدف إلى استخدام مصطلحات أكثر تحديداً أو استبعاد المصطلحات 
التي تحمل معاني متشابهة غير ذات علاقة بموضوع البحث. من ثم فإن التوسيع 
الغرض منه إضافة نتائج صالحة إلى قائمة النتائج المسترجعة» بينما التضييق الغرض 
منه استبعاد النتائج غير الصالحة من قائمة النتائج المسترجعة. 

التوسيع عادة ما يضيف أو يوسع نطاق العلاقات الاصطلاحية المرتبطة» سواء 
فى نفس المستوى الشجري لمصطلحات العبارة البحثية أو في المستويات الأعلى. 
PE T E‏ ا دان الات هي او 
ويعمل على إزالة الغموض Disambiguty‏ الاصطلاحي بغرض التأكد من استرجاع 
النتائج الصالحة فقط واستبعاد النتائج غير الصالحة. 

ويتم تقسيم عملية توسيع الاستفسارات إلى ثلاث فئات بناء على مصدر اختيار المصطلحات 
المرتبطة بعملية توسيع الاستفسار >s (Gauch, Wang & Erachakonda,1999)‏ : 


٠‏ التخصيص الاصطلاحى Term Specificaty‏ وهو عبارة عن إجراء عملية 
توسيع بالاعتماة على مجموعة فرعية من الوثاكق المسترجعة باستخدام 
استفسار أولي ثم مراجعة المصطلحات الواردة في الوثائق المسترجعة» بناء 
ple‏ تلاك المجموضة lens ge ll‏ على تلاك الحسابة الوس gapai‏ 
الاستفسار Query Specific Expansion‏ وإذا تمت عملية التوسيع بناء على 
مجموعة المصطلحات التي يتم تحديدها أو الحصول عليها من خلال تحليل 
محتوى قاعدة بيانات نصوص كاملة معينة» من ثم فإنها عملية تخصيص بناء 
على ذخيرة نصية .Text Corpus Specific‏ 


٠‏ التخصيص اللغوي Language Specificity‏ من خلال البحث في الأدوات 
المضبوطة مثل المكانز وقوائم رؤوس الموضوعات العامة وغير المرتبطة 
بمجموعة محددة من الوثائق. ويمكن أن تتم عملية توسيع الاستفسارات 
بطريقة يدوية أو آلية. ويقوم المستفيد في الطريقة اليدوية بتحديد المصطلحات 
الجديدة وإجراء عملية تعديل الاستفسار بنفسه. أما التوسيع الآلي» والذي 
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يطلق عليه Lal‏ رد فعل الصلاحية Relevance Feedback‏ والذي يعتمد على 
اقتراض أن مجموعة النتائج التي ترد على قمة الترتيب Top Ranked‏ في نتائج 
البحث هي المجموعة الأكثر صلاحية» من ثم استخدامها في عملية مراجعة 
وتوسيع الاستفسار ولا يتدخل المستفيد سواء بطريقة مباشرة أو غير مباشرة 
فى عملية تعديل الاستفسار (Grossman & Frieder ,1998, Salton,1990)‏ . 


وتجدر الإشارة إلى أن مصطلح توسيع الاستفسار ليس المصطلح الملائم لوصف 
تلك العملية» والمصطلح الأكثر دلالة هو تعديل الاستفسار -Query Modifications‏ 
ومن الآليات الإضافية لتعديل الاستفسارات استخدام قوائم المقترحات» والتي يتم 
إدراجها في صورة قائمة منسدلة أثناء إجراء البحثء تقترح مجموعة من المصطلحات 
عندما يقوم المستفيد بإدخال الاستفسار في صندوق البحث. 


وقديرى البعض أن هذه الآلية قدتؤدي إلى تشتيت المستفيد ‘User Distraction‏ 
إلا أن البعض الآخر يرى أنها تدعم عملية التوسيع في الوقت الحقيقي Real Time‏ 
50 بمعنى أن عملية التعديل تتم بصورة تفاعلية مع استفسارات المستفيدين 
.CWhite & Marchionini, 2006)‏ 


ais |»‏ النتائج Results Ranking‏ تعد عملية ترتيب النتائج ومسيلة:أساسية 
لتعديل الاستفسار من خلال استخدام أسلوب الصلاحية الراجعة في عملية 
التوسيع الآلي للاستفسار» كما هو الحال في آليات الوزن Weighting‏ 
Techniques‏ التي تعتمد على خوارزميات الوزن والترتيب مثل موضع 
المصطلح» تقارب المصطلحات. تردد المصطلحات.. الخ. 


وتعتمد كل نظم استرجاع المعلومات على خوارزمية خاصة بالترتيب» عادة ما تكون 
غير منشورة أو متاحة للجمهور العام. ولعل أبرز الأساليب المستخدمة في الترتيب في 
بيئة الويب استخدام أسلوب شهرة الروابط Link Publarity‏ ومنها الروابط الراجعة 
Back Link‏ الذي يعتمد عليها محرك البحث جوجل منذ عام 1998 )1998 .(Vidman,‏ 
وتعتمد تلك الطريقة في الحكم على صلاحية أي صفحة أو موقع ويب إلى جانب 
معايير أخرى بناء على عدد الروابط التي تشير إليها باستخدام الروابط الفائقة. 
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ومن الأساليب الأخرى المستخدمة في توسيع الاستفسارات استخدام نموذج 
الاستفسار بالمثال (Query by Example‏ حيث يشير مثال هنا إلى النتائج التي يتم 
استرجاعهاء من ثم يتم استخدامها كنموذج في الحصول على نتائج أخرى. ففي 
نظم البحث عن الأصوات والصور والوسائط المتعددة من الممكن أن يستخدم 
النموذج من المستفيد مباشرة مثل استخدام رسم باليد كنمو Hand Drawn z>‏ 
Sketch‏ يقوم المستفيد بإدخاله إلى النظام» كما يمكن أن يقوم المستفيد بإدخال 
نغمة معينة للبحث عن الأصوات. وتعتمد العديد من نظم استرجاع المعلومات التي 
تعمل في بيئة الإنترنت على أساليب التوسيع من خلال علاقات التشابه والصلاحية 
الراجعة باستخدام الربط الفائق الذي يمكن للمستفيد النقر عليه مثل «أكثر من هذا) 
.More Like This‏ 


تعد عملية تعديل الاستفسار إحدى أهم آليات تحسين النتائج المسترجعة والتي 
تعتمد على مراجعة الاستفسار من خلال اقتراح مصطلحات في صناديق البحث أو 
النموذج وخاصة الصلاحية الراجعة دوراً كبيراً في تحسين أداء أدوات البحث على 
الإنترنت» من ثم فإن له تطبيقات عدة في العصر الرقمي. 


> 7.4 بحث قواعد البيانات المتعددة 


Multiple Databases search 


يستخدم مصطلح البحث في قواعد البيانات المتعددة أو البحث العام أو البحث 
المجمع في الإشارة إلى عمليات البحث في أكثر من قاعدة بيانات أو أداة بحث 
بالتزامن في الوقت نفسه. ويشير مصطلح قاعدة البيانات هنا إلى أي نظام استرجاع 
معلومات سواء كان محرك بحث أو فهرساً أو قاعدة بيانات.. الخ. ويتميز هذا النمط 
من أنماط البحث بثلاث مميزات أساسية هي: 


1. أن البحث في نظام استرجاع معلومات واحد قد لا يسترجع كل النتائج التي 
يحتاج إليها المستفيدء نظراً لأن لكل نظام تغطيته الموضوعية ونقاط تركيزه 
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وملامحه الخاصة التي تختلف عن نظام آخر» وفي هذه الحالة لابد من 


2. البحث المتعدد قد يساعد المستفيد على عملية اختيار المصدر الملائم 
للبحث» إذا كان المستفيد غير متأكد أو مدرك للنظام أو النظم الملائمة 
لاستفساره. فالمستفيد المبتدئ يمكنه أن يعتمد على البحث المتعدد للتعرف 
إلى المصادر المتاحة ثم الانتقال إلى مرحلة التحديد والفلترة من خلال 
التصفح.. 

3. النتائج التي يحصل عليها المستفيد من البحث المتعدد تساعده على التعرف 
إلى النظم الملائمة لإجراء بحث فيها في المستقبل» بمعنى أن البحث المتعدد 
يعمل هنا كنظام توصية Suggesting Systems‏ 


عند ol pe]‏ البحت فى قواغعل البيانات المتعددة يجب على المستفيد أن يراع 
الاختلافات في تراكيب Query Syntax A aN‏ واللغة وقدرات البحث الخاصة 
بكل نظام من أنظمة استرجاع المعلومات المستخدمة في البحث المتعدد» حيث 
إن الملامح الأساسية والشائعة في أحد النظم قد لا تكون متاحة في نظم أخرى. 
كما أن الملامح والإمكانيات البحثية الشائعة في أكثر من نظام قد يتم التعبير عنها 
وتفسيرها بطرق مختلفة من نظام لآخر. فعلى سبيل المثال تستخدم قواعد بيانات 
المعامل البوليني AND‏ بينما تستخدم محركات البحث معامل الجمع (+) في 
الدلالة على عمليات الربط بين المفاهيم المتنوعة بغرض تحديد نطاق البحث. كما 
توظف العديد من قواعد البيانات المعامل AND‏ على أنه الإعداد الافتراضى Default‏ 
olla Setting‏ السك da pl ce‏ سق أى کن او ق oe‏ رة fae‏ 
من قواعد البيانات الأخرى المعامل OR‏ كإعداد افتراضي. 

وتجدر الإشارة إلى أن اللغات المستخدمة في التكشيف بالنظم المتعددة في الغالب 
ماتكون غير متشابهة» فتوجد احتمالات لاستخدام اللغات الطبيعية وأخرى لاستخدام 


اللغات المضبوطة فى قطاعات موضوعية مختلفة. ومن الصعوبات الأخرى التى تواجهها 
نظم البحث المتعدد هو كيفية معالجة أشكال البيانات المختلفة مثل: الشكل سكي ASCH‏ 
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لتمثيل البيانات والفهارس المقروءة آلياً MARC‏ والتي يتم تخزينها في قواعد البيانات. مع 
العلم أنه يتم استخدام بروتوكول 739.50 لخدمات استرجاع المعلومات وهو البروتوكول 
المخصص لتطبيقات المكتبات إلى جانب معايير أخرى كمعايبر التشغيل التبادلي ومنها 
على سبيل المثال معيار RDF Resource Description Framework‏ لمعالجة كل أشكال 
البيانات لأغراض الاسترجاع. لذلك فإن النظم التي تتوافق مع معيار 239.50 يُمكن 
إجراء البحث المتعدد فيها بسهولة بصرف النظر عن الاختلافات فى أشكال البيانات أو 
مدى تقاربها الجغرافي )1995 l .(Michael & Hinnebusch,‏ 


ويعد معيار 7239.50 المعيار الأساسى المعتمد من جانب المؤسسة الوطنية 
لمعايير المعلومات oliki National miimi Standards Institute‏ فهارس 
المكتبات المتاحة على الخط المباشر OPAC‏ وفهارس الويب WebPAC‏ وغيرها من 
نظم استرجاع المعلومات من قواعد بيانات ببليوجرافية وقواعد بيانات نصوص كاملة. 
ويعتمد معيار 739.50 على استخدام واجهة موحدة بصرف النظر عن الواجهة التي 
يستخدمها كل نظام على حدة. 


ومع نمو متطلبات العمل في بيئة الوبب ظهرت معايير جديدة للبحث 
والاسترجاع في هذه البيئة» منها خدمة البحث والاسترجاع من الويب Search)‏ 
Retrieve WebSearvice -SRW‏ \( والبحث والاسترجاع من خلال معين المصادر 
الموحد .)Search Retrieve Via URL -SRU)‏ وقد تم تصميم هذين البروتوكولين 
لتيسير إجراءات البحث سواء إرسال الاستفسارات أو تلقي النتائج في بيئة الويب. 
فعندما يقوم المستفيد بإرسال استفسار عبر نظام بحث متعدد فإن تراكيب التعبير 
عن الاستفسار قد تختلف من نظام لاخر» كذلك شكل نتائج الاستجابة» حيث 
إن الاستجابة لا تقتصر فقط على نتائج البحث ولكن Lal‏ على شكل المعلومات 
.Formatting Information‏ وأحيانا يتم الدمج بين SRW/SRU o 55 539 SI‏ معا 
في بروتوكول واحد يدم الإشارة إليه بالمختصر GRWWU)‏ والذي يقوم بمعالجة 
مشكلات التراكيب المتنوعة والاستجابات المختلفة في نظم البحث المتعدد. 


وقد صدر هذا المعيار SRWIU‏ عن مكتبة الكونجرس الأمريكية ويعد أحد المعايير 
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الأساسية التي تراعيها المكتبة في تطبيقات نظم استرجاع المعلومات الببليوجرافية 
(Library of congress, 2008)‏ ويساعد بروتوکول SRW‏ على إجراء البحث 
المتعدد من خلال وكيل بحث يقوم بإجراء البحث في قواعد البيانات المتاحة على 
الويب واسترجاع النتائج بسلاسة دون الحاجة إلى استخدام بروتوكول 239.50 الأكثر 
تعقيدا (7/101832,2004). فعند المقارنة بين بروتوكول SRW\U‏ وبروت و كول 239.50 
نجد أن بروتوكول 5180817 أكثر سهولة في التطبيق ويؤدي نفس الوظيفة الدلالية 
لبروتو كول )2016 ,2015 ,2004 .Z39.50 (Levan, 2003, Mie.‏ 

وإلى جانب التحديات التي سبق ذكرها فيما يتعلق بالبحث المتعدد. فإن دمج 
النتائج Results Merging‏ التي يتم استرجاعها من قواعد البيانات المتعددة يعد 
Lal‏ الأمور المهمة في هذا المجال. فعلى سبيل المثال أصبح أسلوب عرض 
النتائج مرتبة نموذجاً ومطلباً أساسياً متزايداً في بيئة الويب. فمن غير الطبيعي أن 
نتوقع حصول النتيجة التي جاءت في الترتيب رقم 1 من نظام استرجاع معين على 
نفس الترتيب عند دمج النتائج مع نتيجة أخرى حصلت على ترتيب رقم 1 من نظام 
آخر» وعادة مايتم استخدام ابال دمج البيانات Fusion‏ كنم وذج لدمج 
التتائج في البحث المتعدد بقواعد البيانات للحصول على أفضل قائمة نتائج مرتبة 
عند استخدام هذه الحلول. وقد اختبر خالد عبدالفتاح محمد (Mohamed,2004)‏ 
ثلاث خوارزميات وبدائل دمجها وتدويرهاء لإجراء الدمج والفرز للنتائج من ثلاث 
محركات بحث» وتوصل إلى أنه لا توجد خوارزمية دمج تحقق نتائج أفضل من باقي 
الخوارزميات وأنه لابد من الدمج بين أكثر من حل من الحلول المنطقية التي يتم 
تطبيقها على الهواء On the Fly‏ عند دمج وترتيب النتائج المسترجعة من أكثر من 
محرك بحث لأغراض بناء ما وراء المحركات. وقد خصص مؤتمر TREC‏ مسارا 
خاصاً لدمج وفرز النتائج لأغراض البحث المتعدد من المصادر غير المتجانسة 
Heterogenous‏ وعر ضھا في قائمة موحدة )2000 .(Voorhees & Hanman,‏ 


وعادة ما يتم تطبيق البحث في قواعد البيانات المتعددة من خلال موردي قواعد 
البيانات مثل Proquest, EBSCOHOST, DIALOG‏ كما أن ما وراء محركات الويب 


آليات الاسترجاع وتمتيل الاستفسارات 


تووى وظبف ةانتسبهة سمليات البح الشعده Lol pb‏ البيانات والتهسارس» Coe‏ 


أساسية للبحث فى المصادر المتعددة يوضحها الشكل التالى: 





الفهارس الموحدة 
البحث في الفهارس 
الفهارس المتعددة 


البحث الفيدرالي 
j‏ البحث في قواعد البيانات 





البحث الاستكشافي 


البحث في الويب 
البحث النطاقي 


guylnall 7.4.1 >‏ 
يشتمل هذا النوع على نمطين أساسيين هما: 


- النمط الأول: البحث في الفهارس الأخرى ويعتمد على استخدام بروتوكول 
0 لربط فهرس المكتبة بفهارس المكتبات الأخرىء مايمكن المستفيد 
بدن الك فى تلك اهاري عفد الحاجة. 














- النمط الثاني: يستخدم في بناء الفهارس الموحدة والذي يعتمد أيضا استخدام 
أسلوبين أساسيين فى البناء هما (محمدء 2011): 


ء الفهارس الموحدة المركزية Physical Union Catalogs‏ والتي تقوم بتجميع 
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e‏ الفهارس الموحلة التخيلية Viritual Union Catalogs‏ التي يتم فيها 
بناء واجهة موحدة يمكن من خلالها البحث في كل الفهارس المستقلة 
دون الحاجة إلى تجميع الفهارس في قاعدة بيانات موحدة مع إجراء 
هده ppl gall‏ مزيجا مروتو ON GS‏ 739.50 وبروتوكولات الروابط 
المفتوحة .SRW/U‏ 


> 7.4.2 البحث فى قواعد البيانات المتعددة 
يوجد أسلوبان أساسيان شائعان الآن لهذا النمط من أنماط البحث هما: 


- البحث الفيدرالى Federated Search‏ والذي يعتمد على تفس اسلوب 
الفهارس الموحدة التخيلية؛ حيث يستند إلى واجهة موحدة تقوم بتلقي 
استفسارات المستفيدين وإرسالها إلى قواعد البيانات المستقلة وتسترجع 
النتائج منها ثم تقوم بدمجها في قائمة موحدة وعرضها مرتبة للمستفيد وتتم 
- البحث الاستكشافى Discovery Search‏ ويعتمد هذا النمط على نفس 
أسلوب عمل الفهارس الموحدة المركزية؛ حيث يقوم بتجميع كل التسجيلات 
في قاعدة بيانات ميتاداتا موحدة تستخدم للبحث في قاعدة البيانات المركزية 
دفعة واحدة» بدلا من إجراء البحث في قواعد البيانات المستقلة. من ثم 


1. الويب: يتم البحث في شبكة الويب بالاعتماد على آليات استكشاف مصادر 
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المعلومات المتاحة من خلال محركات البحث. بمعنى آخر أنه يستخدم 
إمكانيات محركات البحث فى استكشاف شبكة الويب بالاعتماد على آليات 
عمل تلك المحركات والتي T‏ أدوات مثل الزواحف Crawlers‏ وتوجد 
طريقتان أساسيتان يمكن من خلالهما استكشاف محركات البحث هما: 


8 ماوراء المحركات Meta Search Engines‏ وهي عبارة عن أداة بحث 
تستطيع البحث في أكثر من محرك في نفس الوقت. تقوم تلك الأداة بتلقي 
استفسارات المستفيدين وإرسالها إلى محركات البحث المتعددة واستقبال 
النتائج من تلك المحركات وإجراء عمليات الدمج. بمعنى إنشاء قائمة نتائج 
موحدة وفرز تلك النتائج وفقاً لإحدى خوارزميات الفرز ثم عرض النتائج 
de go gal‏ اليه علي راا اح 

e‏ البحث النطاقى للويب Web Scale Searching‏ يعتمد هذا النمط على 
plas‏ إمكانيات مر كات tamed‏ في pe}‏ اسك حاف لقطاء cP ge gp‏ 
أو مجموعة محددة من القطاعات بقاعدة بيانات أو بمجموعة من قواعد 
البيانات أو المحركات أو نوعية معينة من المصادر سواء كانت نوعية معينة 
من الوثائق مثل الصور أو الملفات المسموعة أو الفيديو image, Video,‏ 
youtube‏ أو قطاعاً معيناً مثل الوثائق العلمية كما هو الحال Google Scholar,‏ 
Pubmed, CiteseerX‏ وهو فى هذه الحالة يشبه البوابات المتخصصة فى 
فطاعات Te Le pd ps‏ قات مغينة سن الوقائق لكقه يرك ابسحت في 
لاق مدد من الزكائق ونش GeO‏ 


> 7.5 اختيار الية البحث 


اتضح من العرض السابق أنه توجد أدوات بحث متنوعة يمكن للمستفيد النهائي أن 
يستخدمها ويوظفها لإجراء عمليات البحث عن المعلومات. وتوجد العديد من العوامل 
التى يجب أن يراعيها المستفيد عند اختيار آلية البحث الملائمة. وسوف تركز المناقشة 
في هذا الجزء على اختيار آلية البحث بناءً على وظائفها وأداء نظام استرجاع المعلومات. 
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> 7.5.1 وظائف آليات الاسترجاع 


تعمل آليات الاسترجاع المختلفة بأساليب متنوعة» ولكل آلية طريقة في الأداء 
تساعد المستفيد على تحقيق يق أهدافه من البحث بشرط استخدام الطريقة الملائمة في 
الموقف البحثي. فعلى سبيل المثال استخدام البتر يساعد على استر جاع الأشكال 
المختلفة للمصطلح والتي تتشابه معاً في أجزاء من هجائها وشكل كتابتها وتحمل معنى 
مشتركاً أو مرتبطاً. ويقوم البحث الغامض أو المجرد بالتعامل مع أخطاء الهجاء وبرامج 
التعرف الضوئي على الحروف في حالة المطابقة السام و SCAN‏ ا 
للمصطلح. لذلك فإن السؤال الأول الذي يجب أن يسأله المستفيد قبل إجراء البحث» 
وبعد تحديد سلة المصطلحات اللازمة للبحث» هو ما هي آلية البحث الملائمة لتحقيق 
الهدف من استرجاع المعلومات. وبمجرد الإجابة عن هذا السؤال يستطيع المستفيد 
تحديد الآلية الملائمة لطبيعة العبارة البحثية التي يرغب في البحث عنها. 


> 7.6 أداء نظام استرجاع المعلومات 


عادة مايتم قياس أداء نظم استرجاع المعلومات بالاعتماد على مقاييس الاستدعاء 
والتحقيق» على الرغم من أن هذين المقياسين هما محل جدل دائم بين المتخصصين. 
وسوف يركز هذا القسم على الاستدعاء والتحقيق كمقياسين من مقاييس الأداء 
وسوف يترك الجدل الدائر حولهما للدراسات التي تناولت تقييم الأداء في نظم 
استرجاع المعلومات. 


التحقيق Precision‏ يتم حساب معدل الوثائق الصالحة المسترجعة إلى إجمالي 

عدد الوثائق المسترجعة من النظام؛ حيث يختبر هذا المقياس قدرة النظام على 
الفصلء بمعنى قدرته على عزل الوثائق قى غير الصالحة واسترجاع الوثائق ق الصالحة 
فقط. نفترض أنه تم استرجاع 100 وثيقة لاستفسار معين» وتم الحكم على 35 وثيقة 
فقط منها أنها صالحة» يكون معدل التحقيق في النظام هو 35./. 


التحقيق = عدد الوثائق الصالحة المسترجعة / إجمالى عدد الوثائق المسترجعة X‏ 100 


آليات الاسترجاع وتمثيل الاستفسارات 


الاستدعاء Recall‏ يتم حسابه بمعدل الوثائق الصالحة المسترجعة إلى إجمالي 
عدد الوثائق الصالحة في النظام بأكمله. ويختبر هذا المقياس القدرة الاسترجاعية 
Retrievability‏ لنظام استرجاع المعلومات. نفترض أنه يوجد 100 وثيقة صالحة في 
النظام بأكمله في موضوع معين» عند إجراء البحث في النظام عن هذا الموضوع» تم 
استرجاع 45 وثيقة فقط من ثم يكون معدل الاستدعاء في هذا النظام 7.45- 
الاستدعاء = عدد الوثائق الصالحة المسترجعة / إجمالي الوثائق الصالحة في النظام × 100 


وعلى الرغم من أنه كلما ارتفعت النسبة التي يتم حسابها لأي من المقياسين» كان 
أداء النظام أفضل؛ إلا أنه من المستحيل الحصول على نسبة مرتفعة للمقياسين معا 
وذلك لوجود علاقة عكسية بينهماء والتي تشير إلى أنه كلما ارتفعت نسبة التحقيق 
انخفض نسبة الاستدعاء والعكس. ويرجع ذلك إلى أن الجزء الأول من المعادلة في 
كل من المقياسين ثابت والاختلاف في الجزء الثاني. 


وبالنظر إلى أداء نظم استرجاع المعلومات من حيث آليات الاسترجاع فإنه يمكن 


تقسيم تلك الآليات إلى: 
- آليات تحسن التحقيق مثل استخدام المعامل البوليني AND‏ والبحث بالوزن 
المع 


- آليات تحسن الاستدعاء مثل المعامل البولينى OR‏ والبحث المجرد. 

لذلكه فإن اخها ر آلبة البحث لابد أن تراهى رى الآداء الاسترجاعي GAN‏ 
يرغب المستفيد فى تحقيقه من العبارة البحثية» فإذا كان المستفيد يرغب فى مستوى 
عال من التحقيق فعليه اختيار الآلية الملائمة لذلك الغرض والعكس. 


> 7.6.1 آليات الاسترجاع لتحسين التحقيق 


يساعد المعامل البوليني AND‏ على تحسين مستوى التحقيق من خلال المزج بين 
مصطلحين فى العبارة البحثية لتحديد مستوى الدقة اللازم في العلاقة بين المفاهيم 


الفصل السابع 


عند إجراء البحث. فعلى سبيل المثال إذا كان المستفيد يرغب في البحث عن 
المصطلحات الثلاثة: تسوية» النزاعات» الإقليمية» فإنه يمكنه الحصول على نتائج 
دقيقة من خلال استخدام المعامل البوليني AND‏ في الربط بين المصطلحات الثلاثة. 
أما إذاتم استخدام مصطلحين فقط في العبارة البحثية واستبعاد الثالث» OLS‏ عدد 
الوثائق المسترجعة سوف يرتفع وينخفض معه عدد الوثائق الصالحة وينخفض معه 
مستوى الدقة نظراً لعدم تقييد البحث باستخدام المصطلح الثالث. 


المعامل البوليني NOT‏ يساعد أيضاً على تحسين مستوى الدقة في النتائج 
المسترجعة من خلال حذف المصطلحات التي لا يرغب المستفيد في استرجاعها 
ضمن قائمة النتائج. نفترض أنه يوجد مستفيد يرغب في البحث عن وثائق تسوية 
النزاعات الإقليمية وليس الدولية» فإن المعامل البوليني NOT‏ يجب أن يستخدم في 
هذه الحالة لتحقيق الغرض من العملية البحثية. ويمكن صياغة الاستراتيجية كالتالى: 
(تسوية AND‏ نزاعات AND‏ أقليمية) NOT‏ دولية. ولاحظ استخدام الأقواس e‏ 
الأولويات البحثية. 


يساعد البحث بالحروف الحساسة على زيادة الدقة من خلال التمييز بين الحروف 
الرومانية. فكما أوضحنا من قبل» عند البحث عن العلامة التجارية Target‏ أو محال 
Target‏ يتطلب كتابة الحرف 1 الكبير أما عند الحاجة إلى البحث عن المصطلح 
target‏ بمعنى هدف أو غاية» فإن المستفيد في هذه الحالة بحاجة إلى استخدام حرف 
t‏ الصغير. وإذا كان النظام لا يتيح إمكانية إجراء البحث بالحروف الحساسة» وهو 
الحال في الغالبية العظمى من النظم الحالية» بالتالي لن يكون أمام المستفيد أي 
خيار في التمييز بين الحروف. من ثم سيقوم النظام باسترجاع كل الوثائق التي تتناول 
المصطلح target, Target‏ دون تمييز بين دلالة المصطلح في كل حالة» ما يؤثر في 
معدل 252 أداء نظام استرجاع المعلومات بصورة سلبية. 

المعامل with‏ الذي يستخدم في البحث بالتقارب يساعد أيضاً على تحسين مستوى 
الدقة في النتائج» نظراً إلى أنه يحدد الترتيب الذي يجب أن تظهر فيه المصطلحات 
في النتائج المسترجعة كما وردت في العبارة البحثية «الاستفسار). فعن د البحث عن 


آليات الاسترجاع وتمثيل الاستفسارات 


المصطلحين information with technology‏ لابد أن يسترجع النظام وثائق تتناول 
الموضوعات بنفس الترتيب» ويتم استبعاد أي وثائق تشتمل على أي مزيج مخالف 
للترتيب الوارد فى الاستفسار مثل technology information , information and)‏ 
(technology‏ حيث إنها سوف تسترجع نتائج غير دقيقة بناء على الترتيب الذي 
حدده المستفيد في الاستفسار الأساسي. 

كذلك الحال بالنسبة للمعامل n with‏ فإنه يساعد على تحسين مستوى الدقة» حيث إنه 
يحدد عدد الكلمات التي تفصل بين المصطلحات المستخدمة في الاستفسار مع مراعاة 
ol SI l‏ فى صياغة الاستفسار وفقا لعدد من الكلمات التى يربط بينها المعامل: 


٠‏ ضبط المسافات + BOLD‏ يُعد أيضاً من آليات تحسين مستوى الدقة في 
الاسترجاع من خلال إعطاء وزن نسبي لكل مصطلح من المصطلحات 
المستخدمة في الاستفسار» ما يساعد المستفيد على التركيز على جانب 
من جوانب الموضوع بصورة أكبر والحصول على نتائج مطابقة لتوقعاته. 
فعلى سبيل المثال عند البحث عن موضوع (تسوية النزاعات الإقليمية) 
في محركات البحث فإنه يمكن إعطاء تركيز أكبر على أحد الجوانب من 
خلال وضع علامة (+) بجوار المصطلح وترك المصطلح الآخر من دون أي 
علامة مميزة (+تسوية + النزاعات الإقليمية). وتعني هذه العبارة البحثية أن 
المستفيد مهتم أكثر بموضوعي (تسوية) و(النزاعات) ويجب تسليط الضوء 
على هذين الجانبين عند إجراء البحث. من ثم فإن استخدام آليات الوزن 
النسبي للمصطلحات يساعد على تحقيق مستوى أكبر من الدقة في النتائج 
المسترجعة وفقا لنقاط التركيز التي يراها المستفيد. 

ء البحث الحقلي Field Searching‏ يساعد على تحقيق الدقة في البحث 
ee‏ وا هقی دقو س acs) eer‏ من اقول 
المستخدمة في التمثيل يمثل محددا معينا في الوثيقة. فإن كان البحث عن 
وثائق لمؤلف معين فإن المستفيد هنا بحاجة إلى إجراء البحث عن هذا 
المؤلف باسمه مع تقييد البحث في حقل المؤلف. من ثم يحصل على نتائج 


الفصل السابع 


أكثر دقة عند تقييد البحث فى حقل المؤلف من تركها عامة فى كل الحقول؛ 
و idle Hila Say Malet‏ 
کن كوي eS‏ لقن 
والخلاصة أن المعاملات البولينية AND, NOT‏ والبحث بالحروف الحساسة 
والمعامل with‏ المستخدم في البحث بالتقارب والمعامل n with‏ والبحث الحقلي 
والبحث بوزن المصطلحات كلها آليات تستخدم في تحسين مستوى الدقة في 
النتائج المسترجعة. 


> 7.6.2 آليات الاسترجاع لتحسين الاستدعاء 


في بعض الأحيان قد يحتاج المستفيد إلى توسيع نطاق البحث للحصول على 
عدد أكبر من النتائج وتغطية كافة عناصر الموضوع الذي يتناوله بمفاهيمه المتنوعة 
وسلة المصطلحات التي حددها. وتوجد مجموعة من الآليات التي تساعد على 
توسيع نطاق البحث تشمل مايلي: 
٠‏ المعامل OR‏ ويستخدم المعامل OR‏ لتوسيع نطاق البحث» حيث إنه يستخدم 
لاسترجاع أي وثيقة يظهر بها أي مصطلح من المصطلحات المربوطة بالمعامل 
OR‏ بالتالي يرتفع عدد النتائج المسترجعة ويرتفع معه معدل الاستدعاء. 
فعلي سبيل المثال عند البحث عن الانتخابات أو التصويت فإن النظام سوف 
يسترجع أي وثيقة يرد بها أي من المصطلحين إلى جانب استرجاع الوثائق 
التي يرد بها المصطلحان معاً. من ثم فإن المعامل البوليني YOR‏ يضع أي 
قيود في عملية البحث تؤدي إلى تضيق النطاق مقارنة بالمعاملين الآخرين 
AND /NOT‏ وتجدر الإشارة إلى أنه كلما قلت القيود أو المحددات» ارتفع 
عدد الوثائق المسترجعة وارتفع معها الاستدعاء. 
* البتريساعد على توسيع نطاق البحث من خلال استخدام الجزء المشترك 
من المصطلح في الاستفسار (مثل جذر الكلمة) «Word Stem‏ واسترجاع 
كل الأشكال المختلفة في قائمة النتائج. فعلى سبيل المثال عند إجراء بحث 


آليات الاسترجاع وتمثيل الاستفسارات 


بالبتر عن المصطلح (ejournel*)‏ فإن النظام سوف يسترجع كل الوثائق التي 
تشتمل على المصطلحات ejournels, ejournel, ejournalist, ejournalism,)‏ 
Cete‏ أو غيرها من المصطلحات التي تبدأ بالجزء -ejournal‏ ومن الواضح 
أن معدل الاستدعاء لعملية البتر في هذه الحالة سوف يرتفع نتيجة لتوسيع 
نطاق البحث» ويسترجع وثائق مأ مون الاجم E‏ ناريج 
الوثائق التي تضمنت سلسلة الحروف الواردة في الاستفسار فقط. 
معامل التقارب near‏ يساعد أيضاً على توسيع نطاق البحث» حيث يسمح 
mee‏ المصطلحات التي يتم ربطها بالمعامل near‏ بصرف النظر 
عن ترتيبها في الوثائق قق المسترجعة. من ثم فإن استخدام المعامل near‏ في 
الاستفسار ات مثل information near technology‏ سوف يسترجع وثائق 
تتناول information technology‏ ووثائق من technology information‏ ما 
يساعد على رفع معدلات الاستدعاء 58 النتائج المسترجعة. ويعمل المعامل 
near‏ 2 بنفس الطريقة Pees‏ به ole‏ ا ies‏ عدد الكلمات 
اتی يجب أن ترد ب بين المصطلحين اللذين تم ربطهما Les‏ بالمعامل mear‏ 
البحث المجرد يستخدم أيضاً وسيلة من وسائل توسيع نطاق البحث من خلال 
تحديد وتصحيح الأخطاء التي تحدث نتيجة أخطاء الهجاء أو أدوات التعرف 
الضوئي إلى الحروف وغيرها . فإذا كانت الوثيقة ثيقة تتناول موضوع cellular‏ 
phone‏ والمستفيد Les}‏ في كتابة المصطلح وكتبه tcelluler‏ فإن النظام سيظل 
قادراً على استرجاع الوثيقة في حال استخدام إمكانيات البحث المجرد» من 
ثمفإن النظام At‏ هذه الحالة يساعد على رفع معدلات الاستدعاء. 


تعديل الاستفسار: توسيع الاستفسار يهدف إلى استرجاع عدد أكبر من الوثائق 
الصالحة من خلال تعديل الاستفسارات بناء على استخدام دفعة من النتائج 
الأولية في تحسين كفاءة الاستدعاء. ويمكن أن يتم تكرار عمليات التعديل 
وتوسيع الاستفسارات حتى يتم الحصول على العدد الكافي من الوثائق 

الصالحة» فعلى سبيل المثال نفترض أنه عند البحث بمصطلح غير متداول 


الفصل السابع 


كثيراً مثل vector space model‏ قام النظام باسترجاع 5 وثائق فقطء واستنبط 
النظام من هذه الوثائق أن اسم (Salton)‏ كان شائعاً في هذه الوثائق الخمس. 
المصطلح العام مثل cretrieval‏ بالتالي يستطيع النظام أن يسترجع عددا آخر من 
الوثاقق فى الدفعة الثاية SL a‏ الدفعهالأولى pee‏ ستقرى LEA‏ 

٠‏ البح فى المضادر المفعدهة بعد Lisl‏ من آليات تسين سعرى الاستدعاتة 
بسبب استخدام أكثر من قاعدة بيانات واحدة في البحث» ما يعطي الفرصة 
لاسترجاع عدد أكبر من الوثائق الصالحة من التي يتم استرجاعها من قاعدة 
انات واحدة. 


من ثم يمكن القول إن المعامل البوليني OR‏ والبتر ومعاملات البحث بالتقارب 
near, n near‏ والبحث الغامض أو المجرد وآليات توسيع وتعديل الاستفسارات 
والبحث في قواعد البيانات المتعددة كلها آليات تساعد على توسيع نطاق البحث 
بطريقة أو بأخرى. وعلى الرغم من أنه ليس شرطاً أن تحقق زيادة عدد النتائج 
المسترجعة مستوى مرتفعاً من الاستدعاء؛ لأنها يجب أن تكون نتائج صالحة؛ إلا أنها 
ترتفع معها احتمالات زيادة معدلات الاستدعاء لأي استفسار. بالتالي فإن المستفيد 
يجب أن يكون على وعي كامل كيف يؤثر كل أسلوب من أساليب البحث في 
محدلات الاستدغاء والدقة في غمليات البخث سى يستطيع المستغفيد SLBA‏ القرار 
المناسب واستخدام آلية البحث الصحيحة التي تتناسب مع احتياجاته. 


> 7.7 تمثيل الاستفسارات 


query representation 


يتم التعبير عن الاحتياجات المعلوماتية لفظياً باستخدام المصطلحات الملائمة 
قبل إجراء عملية البحث ويطلق على الاحتياجات المعلوماتية التي يتم صياغتها في 
صورة مجموعة من المصطلحات التي يتم الربط بينها (طلبات البحث والاسترجاع 
باستخدام اللغة الطبيعية). ويتم تحويل طلب البحث إلى استفسار باستخدام 


آليات الاسترجاع وتمثيل الاستفسارات 


إمكانيات نظم استرجاع المعلومات مثل بنية الاستفسار Query Syntax‏ وتقنيات 
الاسترجاع Retrieval Techniques‏ والمصطلحات المضبوطة في حال استخدامها. 
Gilley‏ على فر رل olele Ml‏ رارع ا ی 
الاستفسار»» والذي يعد أهم العناصر المؤثرة في عملية البحث وأداء نظم استرجاع 
المعلومات )2000 .(Sparck,‏ 


> 7.7.1 خطوات تمثيل الاستفسارات 
تعد عملية تمثيل الاستفسارات إجراءً فكرياً يتضمن من الخطوات التالية: 
المفاهيم أو الأوجه. 
2. إعداد سلة المصطلحات الخاصة بكل مفهوم والتي تشمل المترادفات والمصطلحات 
الأوسع والأضيق. 
3. ترجمة المصطلحات إلى لغة النظام سواء كانت اللغة الطبيعية أو المضبوطة 
4. إعداد استراتيجية البحث والتي تشمل الربط بين المصطلحات والمفاهيم 
باستخدام المعامل البوليني OR‏ مع المترادفات» والمعامل البوليني AND‏ 
للربط بين المفاهيم» والمعامل NOT‏ لاستبعاد أحد أوجه المفاهيم غير 
المطلوبة فى الاستفسار. 
5. تطبيق آليات البحث والاسترجاع الأخرى مثل البحث المجرد أو البحث 
الحقلي.. إلخ في حالة الحاجة إليها. 
وعلى الرغم من أن هذه الخطوات ما هي إلا مجرد تعليمات لممارسات شائعة 
ومقترحة؛ إلا أنها تتضمن جوهر عملية تمثيل الاستفسارات. ومن الممكن أن تكون 


الفصل السابع 


هناك مجموعةامن ladle Lendl BOLE‏ وحم Lad‏ ساف ة dee‏ تيل 
الاستفسارات خطوة بخطوة مع مراعاة دورها الرئيس في عمليات استرجاع المعلومات. 


> 7.7.1.1 تحليل المفاهيم 


concept analysis 


يتم في المرحلة الأولى من تمثيل الاستفسارات تحليل طلب البحث إلى مجموعة 
المفاهيم الأساسية أو الأوجه Facts‏ فعلى سبيل المثال إذا كان طلب المعلومات هو 


الحصول على الوثائق التي تتناول الموضوع التالي: 


تسوية Sel pat‏ ف الشرق الأوسطظ. 


فبتحليل الطلب السابق نجد أنه يشتمل على ثلاثة مفاهيم مختلفة كما يوضحها 








الجدول التالي: 
المفهوم (1) المفهوم (2) المفهوم (3) 
تسوية صراعات الشرق الأوسط 

















جدول 6.2 تحليل مفاهيم طلب البحث 





فى هذه الحالة من الممكن أن تكون المصطلحات المستخدمة فى عملية البحث 
هي نلسيها التي تغببر عن المقاهيي إلا أن هفاك حالات طهر فا اخ دخات ما بين 
المفاهيم والمصطلحات» ولا توجد مضاهاة كاملة بين المصطلحات والمفاهيم. 
E‏ سييل المثال قد يككون طلي ETEA‏ غلنى الحاجة إلى معلومات 
i=‏ الأتوبيسات buses‏ ومترو الأنفاق subways‏ إلا أن تحليل الطلب قديوضح أن 
المستفيد بحاجة إلى استخدام مصطلح «المواصلات العامة) public transportation‏ 
في البح بدلا من الأتوييسات ومعرو الأنفاق فى تمل الاستفسان إضافة إلى ذلك 
يجب استخدام الأعلام والمسميات الاصطلاحية في جمل اسمية «Noun Phrases‏ 


آليات الاسترجاع وتمثيل الاستفسارات 


في تمثيل المفاهيم. ويتم تمثيل الأفعال التي ترد في الطلبات باستخدام معاملات 
الربط البوليني» أما الأجزاء الأخرى من الطلب مثل الحروف والكلمات الوظيفية 
فلايتم استخدامها في تمثيل المفاهيم التي ترد في طلبات المستفيدين. ومن ثم 
فإن تحليل المفاهيم يركز على الأسماء الاصطلاحية والجمل الاسمية التي ترد في 
طلبات المستفيدين ويقوم بتحويل هذه المفاهيم إلى مصطلحات. 


> 7.7.1.2 تنوع (أشكال) المصطلحات 


Term variations 


تتنوع المصطلحات في معظم الحالات ما بين مترادفات» مصطلحات أوسع» 
مصطلحات أضيق وغيرها من الأشكال. والغرض الأساسى من عملية تحديد 
olla‏ هر ager‏ كل الأشكال ال المسط لهات الدالة على ae‏ 
التي تم تحديدها في الخطوة السابقة؛ بحيث يتم تمثيل المفهوم بصورة شاملة 
ويوضح الجدول 6.2 الأشكال المحتملة لمفهوم تسوية الصراع في الشرق الأوسط 
مع إضافة أن المطلوب هو وثائق من الويب والذي يمكن التعبير عنه كمايلي. 


جدول (7.1) تقسيم المفاهيم وبناء سلة المصطلحات 











Concept 1 Concept 2 Concept 3 
Settlelement Controversy Middle East 
Adjustement Depate Meddle East 
Compromise Dispate MENA 

a Arab Countries 
Equalization Conec And Isracl 

Normalization Iran And Israel 

Conciliation Arab Countries 
And Iran 

















الفصل السابع 


ويتضح من الجدول السابق أنه ليس شرطاً أن تكون كل بدائل المصطلحات 
وأشكالها المختلفة مستخدمة ومعروفة من جانب المستفيدين» وأن المستفيد في 
الغالب يركو على المسطلحات الشهيرة والمعتصيرات» فعلى سيل الخال Soe‏ 
أن المفهوم الأول لم يشتمل على المصطلح intercession‏ والذي يشير إلى الوساطة» 
وأن قرار إدراج مصطلح من عدمه يعتمد على معايير ذاتية مثل توقعات المستفيد 
والاستدعاء المتوقع من جانب المستفيد ومدى تأقلمه مع الموضوع ومصطلحاته. 
فعلى الرغم من أن إدراج كل المصطلحات وأشكالها المختلفة وبدائلها المتنوعة في 
الاستفسار النهائي قد يؤثر في عملية البحث» إلا أن ذلك سوف يساعد المستفيد بعد 
الجولة الأولى من الاستفسار على تحديد المصطلحات القابلة للبحث بدقة. بالتالي 
يجب أن يفهم المستفيد أن عملية البحث تتم بأسلوب الاستفسار والبحث والتفتيش 
Quering, Searching, Snooping‏ وأن عملية البحث هي عملية مستمرة تتم على 
جولات متعددة حتى يصل المستفيد إلى أفضل النتائج. 


ويساعد هذا الإجراء على تحديد كل الأشكال والبدائل المختلفة للمصطلح» والذي 
يتطلب الرجوع إلى قائمة المصطلحات المضبوطة والمعاجم اللغوية والمتخصصة 
والأنطولوجيات وقوائم الكلمات والتقسيمات إلى فئات.. الخ. 


> 7.7.1.3 تحويل المصطلحات 


Terms conversion 


المعلومات» فإنه يجب تحويل المصطلحات التي يتم التعبير عنها باللغة الطبيعية إلى 
نظام المصطلحات المستخدم بالنظام. أما في حالة استخدام اللغة الطبيعية في التعبير 
عن المصطلحات:. فإنه يجب الالتزام باللغة الطبيعية في تعبير عن المصطلحات مع إثراء 
مصطلحات الاستفسار من خلال الأدوات المساعدة مثل القوائم المضبوطة والقواميس. 
وتتطلب عملية تحويل المصطلحات أن يكون المستفيد على دراية ووعي بكيفية توظيف 
اللغة المضبوطة المستخدمة بالنظام» ويمكنه استخدام أي من الأساليب التالية: 


آليات الاسترجاع وتمثيل الاستفسارات 


ا. المطابقة الكاملة Exact Equivalent‏ 


المطابقة الكاملة تعني استخدام المصطلح المخصص والمطابق بالكامل للمفهوم 
الذي يسعى المستفيد إلى البحث عنه من قائمة المصطلحات المضبوطة. ويعد هذا 
الأسلوب أسهل أساليب تحويل المصطلحات» فعلى سبيل المثال إذا كان المستفيد 
يبحث عن الشرق الأوسط فالمطابقة التامة هنا تعني استخدام مصطلح مواز تماماً 
للمفهوم دون التوسيع أو التضييق. 

Il‏ استخدام المترادفات والمصطلحات المرتبطة 


Synonyans or Related Terms 


يهتم هذا التوجه بالاعتماد على قوائم المصطلحات المضبوطة لاشتقاق المترادفات 
والمصطلحات المرتبطة بالمفهوم بالتالي لابد أن يبذل المستفيد جهداً إضافياً في 
عملية اختيار هذه النوعية من المصطلحات من قائمة المصطلحات المضبوطة» والتي 
تُعد قريبة في المعنى من المصطلح الذي يبحث عنه المستفيد. 

Broader Terms استخدام المصطلح الأوسع‎ III 

إذا لم توجد مصطلحات مساوية أو مترادفات للمفهوم الذي يبحث عنه المستفيد 
يجب استخدام المصطلح الأوسع في الدلالة على المفهوم» كما يجب استخدام 
المصطلح الأوسع في الحالات التي قد يتأثر فيها البحث ساباً عند استخدام 
المصطلح المخصص في عملية تحويل المصطلحات. 

Narrower Terms استخدام المصطلح الأضيق‎ IV 


في بعض الأحيان قد يكون للمفهوم الذي يبحث عنه المستفيد مصطلحات أضيق 
أوسع منه. في هذه الحالة يضطر المستفيد إلى استخدام المصطلحات الأضيق في 
الدلالة على المفهوم؛ من ثم يتم تقسيم المفهوم الذي يبحث عنه المستفيد إلى 
نطاقات أو مجموعة من المصطلحات الأضيق. 
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V‏ استخدام الأسماء 


أحيانا lal adaa‏ أسماء الشتركات أو الأشخاص abadi‏ 
أو الأماكن.. إلخ أو غيرها من الأسماء الجديدة التي لا يوجد لها بدائل موازية بقوائم 
المصطلحات المستخدمة في النظام. وفي هذه الحالة لابد من استحداث مصطلح يُطلق 
عليه مُحدد Identifier‏ لإجراء عملية التحويل الاصطلاحى. ومن الوارد جداً أن يكون 
asl‏ الجدية عبر See Nadel‏ تين اعرا اويل وباستهاء عملية 
استخدام المصطلح المساوي» فإن كل أساليب التحويل الأخرى تتطلب عملية تفسير 
للمفاهيم لأغراض التحويل. وتؤثر دقة عملية تفسير المفاهيم في دقة المصطلحات التي 
يتم تحويلها للتعبير عن المفاهيم التي يرغب المستفيد في البحث عنها. 


> 7.8 تطبيق المعاملات البولينية 


Application of bolean operators 


نفترض أن المصطلحات التي تم تجميعها في جدول )7.2( للدلالة على المفاهيم 
الثلاثة التى يبحث المستفيد عنها تمثل الأشكال الصحيحة للمصطلحات الملائمة» 
من ثم فالخطوة التالية هي تطبيق المعاملات البولينية في الربط بين المصطلحات 
المختلفة الدالة على المفاهيم الثلاثة السابقة. وعلى الرغم من وجود بعض 
الاختلافات فى التطبيق توجد قاعدتان أساسيتان لتطبيق المعاملات البولينية: 
1. ربط كل المصطلحات الدالة على نفس المفهوم والمصطلحات التي تنتمي 
إلى سلة مجموعة واحدة باستخدام المعامل OR‏ 
2. استخدام المعامل AND‏ للربط بين المفاهيم المختلفة بمعنى الربط بين كل 
المجموعات» بحيث يمثل كل منها مفهوماً مختلفاً باستخدام المعامل AND‏ 
وفي بعض الأحيان القليلة والاستثنائية استخدام المعامل NOT‏ 


يوضح الجدول 7.2 هذه العملية كمثال للمفاهيم التي تم تجميع المصطلحات 
eel‏ ا ی ج 


آليات الاسترجاع وتمثيل الاستفسارات 











Group 1 Group 2 Group 3 
Settlelement Controversy Middle east 
OR OR OR 
Adjustement Depate MENA 
OR OR OR 
Compromise Dispate Arab Countries) 
OR OR AND Israel 
Equalization Conflect NOT 
OR (Iran 
Normalization 
OR 
conciliation 
Group (1) AND Group (2) AND Group (3) 

















ويتضح من الجدول السابق أمران مهمان هما: 


عدد المصطلحات التي تم استخدامها للدلالة على المفهوم الواحد والتي يستخدم 
معها المعامل OR‏ أو N01‏ - كما هو الحال في المفهوم الثالث الذي تم استخدام 
NOT‏ معه لاستبعاد إيران من العبارة البحثية - يزداد كلما اتسع المصطلح وتعددت 
جوانبه. وهنا يرد سؤال مهم: هل هذه العملية لانهائية» بمعنى هل يجب استخدام كل 
المترادفات والمصطلحات المرتبطة والأوسع والآضيق والمساوية للدلالة» لبناء سلة 
المصطلحات الدالة على المفهوم؟ 


الإجابة بالطبع تتوقف على حجم النتائج التي يرغب المستفيد في الحصول عليهاء 
إضافة إلى طبيعة تمثيل تلك النتائج بقاعدة البيانات» مع مراعاة أنه كلما ازداد عدد 
المصطلحات التي يتم ربطها باستخدام المعامل OR‏ ازداد عدد النتائج المسترجعة. 
وعلى الجانب الآخر كلما انخفض عدد المصطلحات التي يتم ربطها باستخدام 
المعامل COR‏ انخفض علد النتائج المسترجعة الدالة على المفهوم أو المجموعة 
الواحدة. وفى حالة زيادة عدد المصطلحات على الحدود المقبولة (مصطلحان 
ee Tee ee‏ عمو ارات بش cs.‏ معو ی E A‏ 
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يضع كل المصطلحات ويرتبها من حيث الأولوية والأهمية بالنسبة إليه» Oly‏ يختار 
من بينها الأكثر دلالة على المفهوم الذي يرغب في البحث عنه» Oly‏ يربط بينها 
باستخدام المعامل OR‏ ومن الواضح أن الشكل السابق لم يوضح عدد المصطلحات 
المستخدمة في الدلالة على كل مفهوم» حيث تم شرح المفهوم الخاص باستخدام 
المعامل OR‏ لأن قرار تحديد المصطلحات وأهميتها وأولويات البحثء قرار ذاتي 
يتعلق باحتياجات المستفيد ومدى عمقها ومدى أهمية كل مصطلح بالنسبه له. 


الأمر الثاني الذي يجب توضيحه Lad‏ يتعلق بالجدول 7.2 هو استخدام الأقواس» 
فخ مات البحت pte gS‏ سايقاً تيف الإشنارة إلى عملية الر تب في اليك 
البوليني المركب Basten Search‏ 4ه فالجدول 7.2 يمثل هذا ces cipal‏ 
البحث الذي يتطلب استخدام الأقواس لتحديد الترتيب في عملية البحث المنطقي. 


وفي حالة عدم استخدام الأقواس فإن المصطلح الأول في المفهوم الثالث 
Lave (Middle East)‏ يتم ربطه أولاً بقائمة النتائج الخاصة بالمصطلح الأخير 
Conflect‏ الخاص بالمفهوم الثاني Controversy‏ سوف يؤثر في دقة النتائج التي 
يرغب المستفيد في الوصول إليها. لذلك لابد من استخدام الأقواس في العبارة 
البحثية لتحديد الترتيب وأولوية البحث عن المصطلحات فى إطار علاقاتها بطلب 
المستفيد بالتالي يتم البحث في المجموعة بالكامل ثم تحديد عدد النتائج المسترجعة 
لكل مجموعة وربطه بالمجموعة السابقة. 

وتجدر الإشارة إلى أن البحث البوليني أثبت جدارته كأساس لعمليات البحث 
في معظم أنظمة استرجاع المعلومات؛ حيث إن المنطق البوليني هو المنطق الحاكم 
لعملية تمثيل استفسارات المستفيدين في معظم» إن لم يكن كل» حالات استرجاع 
المعلومات. إلا إذا كان المستفيد يحتاج إلى البحث عن مصطلح واحد فقط منفرد 
لا توجد له أي علاقات بمصطلحات أخرىء وهي عملية نادرة الحدوث. مع العلم 
أن عملية البحث البوليني تبدو أكثر تعقيدا من النموذج الموضح هنا وسوف يتم 
مناقشتها بالتفصيل في الفصل التالي الذي يتناول نماذج استرجاع المعلومات. وفي 
حالة عدم استخدام الأقواس لتجميع المصطلحات وتحديد أولوياتها وعلاقاتها؛ فإن 
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النتائج سوف تتأثر وقد يسترجع النظام العديد من الوثائق غير المرتبطة باحتياجات 
المستفيد» وذلك على افتراض أنه يتم استبعاد كل الأقواس من العبارة البحثية 
الموضحة في الشكل 7.2 ويتم الاحتفاظ بكل المصطلحات كما هي موضحة في 


> 7.9 استخدام آليات استرجاع أخرى 


توجد العديد من الأساليب الأخرى التي يمكن أن يستخدمها المستفيد لتمثيل 
الاستفسار بدقة ووضوح. فعلى سبيل المثال يجب على المستفيد أن يراعي الاعتبارات 
- هل هناك حاجة إلى استخدام البحث بالحروف الحساسة في التفرقة بين 
المشترك اللفظي للمصطلح. 
- هل توجد حاجة إلى استخدام معاملات التقارب with or near‏ لتمثيل 
المصطلحات المركبة من كلميتن. 
- هل يتم تحديد عملية البحث في حقول معينة مثل العنوان أو الكلمات 
المفتاحية. 
اللا ستفسار. 
= هل يجب البحث فى أكثر من قاعدة بيانات سواء بصورة مستقلة أو مجمعة. 
سبق وأشرنا إلى أنه ليست كل نظم استرجاع المعلومات تدعم كل الآليات التي 
تمت مناقشاتها فى هذا الجزء؛ لذلك فإن هذه القائمة من الأساليب وآليات البحث» 
تعد قائمة مراجعة واختيار chick list‏ أكثر منهاء قائمة إجراءات must do list‏ يتم 
استخدافمها فى dall lee‏ 
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وكماهو الحال في عملية تمثيل المعلومات فإن عملية تمثيل الاستفسارات 
أيضاً عملية صعبة معقدة. وعلى الرغم من تلخيص هذه الخطوات الخمس للتعبير 
عن الخطوات الرئيسة لتمثيل الاستفسارات» إلا أن الممارسة الفعلية من الممكن ألا 
تتضمن كل هذه الخطوات السابقة» وليس شرطاً أن يتم تطبيقها بنفس الترتيب ويتوقف 
الأمر على مدى خبرة المستفيد في التعامل مع نظم استرجاع المعلومات» حيث 
يتمكن المستفيد الخبير من دمج بعض الخطوات» بينما يحتاج المستفيد المبتدئ إلى 
تفاصيل أكثرء وقد لا يستطيع إجراء أي دمج للعمليات. 

وبصفة عامة فإن الخطوة الأولى في عملية تمثيل الاستفسار تتعامل مع إعراب 
/ الطلب Request Parsing‏ أي تحليل الطلب إلى مفاهيم. وتتعامل الخطوتان الثانية 
والثالشة مع عملية ترجمة الاستفسار إلى مصطلحات» وتركز الخطوتان الرابعة 
والخامسة على تطبيق آليات مختلفة لإمكانيات نظام استرجاع المعلومات. ونظرا 
لأن كل مستفيد وکل طالب بحث» وکل نظام استرجاع معلومات كل منهم له ملامحه 
وسماته الخاصة؛ فإن عملية تمثيل الاستفسارات لابد أن تعكس هذه الظاهرة من 
خلال مراغاة Le geal led eda‏ 


> 7.10 صعوبات تمثيل الاستفسارات 

تعد غملية تمقيل iy Sees Nish Nees Ls coh luke‏ 
وليست عملية آلية؛ حيث إنها تتطلب تفكيراً وتحليلاً وإصدار أحكام. وتوجد العديد 
من ols geval‏ الع تراج ه تلك الغملية الفكرية th‏ 

Julai l‏ المفاهيم 


يمثل تحليل المفاهيم الصعوبة الأولى في تمثيل الاستفسار؛ حيث يجب أن يكون 
لدى المستفيد المعرفة والخبرة والمهارة الكافية لتحديد والتعبير عن المفاهيم التي 
يتضمنها طلب البحث» وعدم الدقة في تحليل المفاهيم من أهم الظواهر السلبية التي 
تحدث في عملية البحث واسترجاع المعلومات. 
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. o 
اللغة‎ Al 


تعد صعوبة تمثيل اللغة هى الصعوبة الثانية فى تمثيل الاستفسار» حيث إن اللغة 
tae E eee O‏ اللغة EA‏ 
فهي صارمة اصطناعية» ومن الصعب صيانتها وتطويرها ومع ذلك يجب تمثيل 
مصطلحات الاستفسار بدقة باستخدام أي من اللغتين أو كليهما معا. وقد تؤثر عملية 
التحويل وتؤدي إلى اختلافات في التمثيل» ما يؤثر في أداء نظام الاسترجاع. كما أن 
استخدام اللغة المضبوطة يزيد من الصعوبات من جانب المستفيد الذي يحتاج إلى 
وقت وجهد لكي يتأقلم ويتدرب عليهاء وعلى الجانب الآخر فإن استخدام اللغة 
الطبيعية أيضا له عيوبه التي تمت مناقشتها بالتفصيل في الفصل الرابع. 


١ا.‏ آلية الاسترجاع 


يعد تطبيق آلية البحث والاسترجاع أحد الصعوبات التي قد تواجه عملية 
تمثيل الاستفسار» حيث إن كل نظام استرجاع معلومات له مواصفاته وآلية تطبيقه» 
بصرف النظر عن آلية الاسترجاع» حيث إن علامة (+) في بعض محركات بحث 
الإنترنت تستخدم بدلا من المعامل البوليني AND‏ وتستخدم في بعض النظم 
الأخرى لوزن المصطلحات» بمعني Lgl‏ تستخدم كعلامة للدلالة على أهمية 
المصطلح» من ثم فإن تمكن المستفيد من تلك الآليات يحتاج أيضا إلى وقت 
وتدريب وممارسة. 


هذه الصعوبات قد تؤدي إلى مشكلات في تمثيل الاستفسارات» ما يؤثر في 
تحقيق المضاهاة ما بين تمثيل المعلومات وتمثيل الاستفسارات. والتغلب على 
تلك المشكلات يمكن من الناحية العملية من خلال تدريب المستفيد وتأهيله إلى 
جانب العمل على الجانب الآخر المتمثل في تطوير البحوث في مجال التمثيل 
SY‏ للاستفسارات. l l‏ 
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> 7.11 التمثيل الآلي للاستفسارات 


Automatic Query Representation 


يعد هذا التوجه من المتطلبات التي تسعى النظم إلى تحقيقهاء وهذه الطريقة 
تشبه غيرها من الطرق الآلية مثل التكشيف الآلي وغيرها من الطرق الآلية لمعالجة 
النصوص التي تعتمد على آليات مثل تردد المصطلحات» التقارب» وموقع المصطلح. 
وفي بعض الأحيان يتم تطبيق خوارزميات قائمة على نظرية الاحتمالات أو النماذج 
اللغوية أو آليات الذكاء الاصطناعي. وعلى عكس التكشيف الآلي الذي يشتمل 
على أنشطة آلية وفكرية؛ فإن تمثيل الاستفسارات يشتمل على مكون فكري فقط. 
ونظراً oY‏ الحاسبات مازالت لا تستطيع التفكير مثل الإنسان» فإنه مازال من الصعب 
التنبؤ أو تخيل الصعوبات التى تواجه العملية الفكرية المتعلقة بتمثيل الاستفسارات. 
bee i‏ هذا E‏ قير Ie‏ لمر جل UM‏ ا ت اسار جام 
المعلومات» كما حظي باهتمام في مؤتمر استرجاع النصوص TREC?‏ . وقد أشارت 
المرحلة الأولى من مؤتمر فى تسخته 1,2 TREC‏ إلى أن الاستفسارات UR gol‏ اليا 
سبل فس SASS‏ ركد رة ا ارات المهيكلة يدوياً في استرجاع المعلومات» 
وفى بعض الأحيان تؤدي بكفاءة أعلى من الاستفسارات اليدوية. وقد أشار سبارك 
(Spark Jones,1995) gos‏ إلى أنه لا توجد أي ميزة إضافية للاستفسارات اليدوية» 
وقد جرت بعفن الدراسات فى TREC 3,4 ati‏ للمقارتة بين الاسعتسارات 
القصيرة Short Queries‏ وكان alll‏ في النسخة 5,6 TREC‏ هو المقارنة بين بناء 
الاستفسارات الطويلة بالطرق اليدوية والآلية واختبار كفاءة النظم عند التعامل مع كل 
منهما والمقارنة بينهما (Spark, Jones,2000)‏ 

وعلى الرغم من أن دراسات TREC‏ ليست شاملة لكل عناصر الموضوع؛ إلا أنها 
أثارت قضية التوجه الآلى نحو بناء الاستفسارات والموقف الحالى للدراسات فى 
هذا الاتجاه ويحتاج هذا eps yal‏ دراسيات ities‏ فصيو 6ا الطرق LINI‏ 
لتمثيل الاستفسارات. 


TREC - Text Retrieval Conference (1) 
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أساليب الاسترجاع 


< مقدمة 
توجد ثلاثة أساليب أساسية لاسترجاع المعلومات هي: البحث. التصفح» 
والنموذج الهجين من البحث والتصفح. ويعتمد اختيار الأسلوب الملائم لاسترجاع 
المعلومات على عدة عوامل» لعل أبرزها وأهمها نوع وطبيعة المعلومات التي يحتاج 
إليها مستفيد بعينه. ويعالج هذا الفصل الأساليب الثلاثة المستخدمة في استرجاع 
المعلومات من حيث الملامح والتطبيقات. 
قام كول (Koll,2000)‏ بتشريح عملية استرجاع المعلومات» حيث أشار إلى أن 
عملية استرجاع المعلومات هي عبارة عن البحث عن أبرة في كومة قش» حيث إن 
الإبرة تمثل الوثيقة أو الوثائق التى يبحث عنها المستفيد» وكومة القش هى مجموعة 
l Skl asea‏ 
وقد وضع كول قائمة بالاحتمالات المختلفة لاسترجاع المعلومات من أي نظام 
وهي كالتالي: 
1. البحث عن وثيقة معينة في نظام محدد مثل البحث عن إبرة معينة في كومة 
فش واحلة. 
2. البحث عن وثيقة محددة في نظام غير معروف أو محدد مثل البحث عن إبرة 
معينة في كومة غير معروفة من القش. 
3. البحث عن وثيقة غير معروفة (محددة) ضمن نظام غير معروف مثل البحث 
عن إبرة غير معروفة في كومة قش غير معروفة. 
4. أي وثيقة في نظام محدد مثل البحث عن أي إبرة في كومة محددة من القش. 
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أفضل وثيقة في نظام محدد - أقوى إبرة في كومة قش محددة. 

معظم الوثائق الجيدة في نظام محدد ‏ معظم الإبر القوية في كومة قش 
محلدة. 

كل الوثائق الصالحة المتاحة في النظام - كل الإبر القوية في كومة القش. 

التأكيد على عدم وجود أي وثيقة بالنظام - التأكيد على عدم وجود أي إبرة 


بكومة القفش. 
أي شيء يشبه الوثيقة بالنظام (وثيقة صالحة جزئياً) - أي شيء يشبه الإبرة 
بكومة القفش. 


. التنويه بظهور أي وثيقة جديدة بالنظام - التنويه بظهور أي إبرة بكومة القش. 
. أبن توجد أنظمة استرجاع المعلومات - أين توجد أكوام القش. 


وتعد القائمة السابقة مجموعة من الأحتمالات الممكدة غير الحصرية للبحث عن 
الوثائق في أنظمة استرجاع المعلومات» والذي تم تشبيهه بالبحث عن إبرة في كومة 
قش. ومن الواضح أن البحث هو الأسلوب الملائم لحالات معينة مثل الحالة رقم 
(1) وأن التصفح يبدو أنه الأسلوب الملائم لحالات أخرى مثل الحالة رقم (12) وأن 
بعض الحالات في تلك القائمة تحتاج إلى التصفح والبحث معامثل الحالة رقم (5). 


> 8.1 الاسترجاع من خلال البحث 


Retrieval by searching 


يعد البحث أحد أهم أساليب استرجاع المعلومات والتي يتم معالجتها في 


الدراسات المختلفة لاسترجاع المعلومات باستخدام مصطلحات متنوعة مثل: 
_ البحث بقواعد البيانات Databases Searching‏ 

_ البحث على الخط المباشر Online Searching‏ 

_ البحث في الفهارس المتاحة على الخط المباشر OPAC Searching‏ 
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وغيرها من المصطلحات التي تم استخدامها للإشارة إلى نفس المفهوم» حيث إنه 
بمجرد أن تتم عملية تمثيل الاستفسار يصبح المستفيد جاهزاً لإجراء البحث لأغراض 
استرجاع المعلومات من النظام. 


> 8.1.1 ملامح البحث 


Characteristics of searching 


تسعى عملية البحث عن المعلومات نحو الوصول إلى الوثائق التي تضاهي 
المصطلحات الواردة باستفسار المستفيد» وذلك من خلال اتد تقنيات 
الاسترجاع المختلفة التي تم شرحها في الفصل الخامس. ومن الممكن أن تتم 
عمليات البحث باستخدام نقاط إتاحة موضوعية Subject Access Point‏ أو نقاط 
إتاحة غير موضوعية Non subject Access Points‏ وتشتمل LLG‏ الإتاحة الموضوعية 
على الواصفات Descriptors‏ التي يتم اشتقاقها من المكانز» أرقام التصنيف التي يتم 
استخراجها من خطط التصنيف» رؤوس الموضوعات التي تشتق من قوائم رؤوس 
الموضوعات وغيرها من المحددات الموضوعية الحرة مثل الكلمات المفتاحية» 
والعناوين والمستخلصات. أو النصوص نفسها بقاعدة بيانات النصوص ALIS‏ 
وتشتمل المصطلحات غير الموضوعية على لغة الوثيقة» سنة النشرء نوع الوثيقة» 
أرقام تحديد الهوية ISSN, DOD © [ts‏ ,15511).. إلخ. 

وعد عملية البحث نموذجاً فعالاً لاسترجاع المعلومات في حالة الاستفسارات 
المحددة التى يدرك فيها المستفيد الحاجة إلى الوصول إلى كل الوثائق التى نشرها 
ای ر OLS a‏ ف الت aS fall pels‏ تاريخ 
النشر سوف تؤدي استرجاع النتائج المتوقعة من النظام. أما ]13 كان المستفيد بحاجة 
إلى معرفة كل من أسهم في تطوير مجال استرجاع المعلومات» فإن البحث وحده قد 
لا يكون وسيلة ملائمة لتلبية احتياجاته ولا بد أن يقوم أيضا بالتصفح. 





ISBN - Intenrational Standard Book Number (1) 
ISSN - International Standard Serial Number 
DOI - Digital Object Identifier 
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يعتمد أسلوب البحث عن المعلومات على استخدام تقنيات البحث. مثلاً الاعتماد 
على المنطق البوليني Boolean Logic‏ والذي يتيح للمستفيد إمكانية دمج أكثر من 
وجه واحد لعملية البحث باستفسار المستفيد عند الحاجة لذلك. وباستثناء أنظمة 
استرجاع المعلومات على الإنترنت» فإن معظم نظم استرجاع المعلومات تسمح 
للمستفيد بإجراء تعديلات على الاستفسار من خلال تحديد البحث في نطاق معين 
مثل حقول البحث. وتعد عملية البحث عن المعلومات عملية مستقيمة وممنهجة ولا 
تضع أي أعباء معرفية Cognitive Load‏ على المستفيد. 


وينظر إلى عملية البحث عن المعلومات على Lef‏ نشاط له بناء محدد وتقل فيه 
فرص المفاجأة Serendipity‏ (بمعنى اكتشاف شيء مفید» ولكنه غير متوقع أثناء 
عملية البحث)» حيث إن النظام يعرض فقط الوثائق التي تضاهي استفسار المستفيد» 
إضافة إلى أن المستفيد بحاجة إلى التدريب لتعلم مهارات البحث» حيث إنها مهارات 
مكتسبة تحتاج إلى تعلم وتطور مع الممارسة في نفس الوقت؛ لكي يتمكن المستفيد 
منها. ويمكن القول إن التعلم والممارسة عمليات مكلفة للغاية مع النظم مدفوعة 
الكلفة في مقابل انخفاض الكُلفة في النظم المجانية. 


> 8.1.2 أنواع البحث 
Types of searching‏ 

يمكن تصنيف عملية البحث إلى عدة أنواع وفقاً لأهداف البحث كالتالي: 

النوع الأول: البحث عن وثيقة محددة: فعندما يكون المستفيد بحاجة إلى وثيقة 
معينة فإن عملية البحث يطلق عليها البحث عن مادة محددة Known Item search‏ . 
وتتم عملية البحث عن وثيقة محددة باستخدام محددات بحث مثل المؤلف والعنوان 
وغيرها من الحقول البحثية. ويعد البحث عن وثيقة محددة أبرز مثال لنموذج كول 
(Koll, 2000)‏ | عن إبرة معينة في كومة فش محددة. 

النوع الثاني: البحث عن موضوع معين Topic search‏ والذي يحتاج إليه 
المستفيد لأداء بحث في الإنتاج الفكري المتخصص بغرض تحديد ما إذا كان 
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هناك باحثون آخرون قاموا بإجراء دراسات في هذا الموضوع. أو التعرف إلى كل 
الدراسات في موضوع معين. وفي الغالب لا يتفاجاً المستفيدون إذا لم يجدوا بحثا 
ذا علاقة بالموضوع الذي يبحثون فيه» كما أنهم عادة ما يكونون سعداء بمعرفة أنه 
لا توجد أي دراسة نشرت في هذا الموضوع حتى OY OY‏ ذلك يعد مؤشراً قويا 
على أصالة أبحاثهم. 

وقد أطلق العديد من الباحثين على هذا النوع مصطلح البحث السلبي Negative‏ 
Search‏ مثل «(Stielow & Tibbo,1988)‏ أو كما أطلق عليه كول )2000 (Koll,‏ 
التأكيد بعدم وجود أي وثيقة في الموضوع أو أي إبرة في كومة القش. وتجدر الإشارة 
إلى أن هذا النمط من البحث هو النمط الذي تستخدمه مكاتب براءات الاختراع عند 
فحص أي براءة جديدة للتأكد من أنه لا توجد أي براءة تم منحها في العالم في نفس 
الموضوع وجب of‏ بكرن البحت السلى فقا Seley‏ بحي يتاكد السعنيد أنه 
لا توجد أي وثيقة تعالج نفس الموضوع الذي يسعى إلى البحث فيه. 


النوع الثالث: هو نمط البحث بأغراض الإحاطة الجارية والبث الانتقائي 
للمعلومات Selective Dissemination of Information‏ وقد تم توضيحه بالفصل 
الأول» حيث أوضح لوهان )1961 (Lun,‏ آليات خدمات الإحاطة الجارية والبث 
الانتقائي للمعلومات» ls‏ انتشرت بصورة كبيرة فى مجالات التجارة وإداراة 
الإعمال والمجتمعات العلمية. ويتم في هذه النظم aT‏ استفسار جاهز ثابت 
بالنظام» ثم يتم إجراء البحث بطريقة دورية» وعادة ما تتم تلك العملية بطريقة يقة آلية» 
وقد مثلها كول في القائمة بالبحث عن أي وثيقة جديدة تضاف إلى كوم القش. 

النوع الرابع: المزج بين البحث الموضوعي ونقاط الإتاحة غير الموضوعية: 
حيث يستخدم البحث الموضوعي أو المفاهيمي عندما يكون لدى المستفيد احتياج 
معلوماتي ويسعى إلى الوصول إلى مجموعة من الوثائق الصالحة في الموضوع. 
ولكي يتم إعداد الاستفسار يحتاج المستفيد إلى استخدام نقاط الإتاحة الموضوعية 
التي تم توضيحها في النقطة سابقاً واستكمالها بنقاط الإتاحة غير الموضوعية مثل 
تحديد نطاق البحث في لغة معينة» تاريخ نشر.. إلخ. 


الفصل التامن 


ويوجد العديد من الآليات وتقنيات البحث التي تستخدم لتحديد مدى شمول 
أودقة الببحث» والتي يتم قياسها بمعدلات الاستدعاء والتحقيق. وقد أوضح كول 
(Koll,2000)‏ أنه توجد مجموعة من نماذج البحث من وجهة نظر الاستدعاء 
والتحقيق فى القائمة التى حددها وتشمل: 
1. البحث عن أي وثيقة في النظام بمعنى أن الاستدعاء منخفض والتحقيق 
مرتفع. 
1. البحث عن أفضل وثيقة واحدة بالنظام بمعنى ارتفاع معدل التحقيق بالبحث. 
1. البحث عن معظم الوثائق الصالحة؛ ما يشير إلى ارتفاع معدل الاستدعاء. 
IV‏ كل الوثائق الصالحة للموضوع بالنظام تحقيق أعلى قيمة استدعاء perfect‏ 
-Recall‏ 
۷. ومن الاحتمالات الأخرى في هذا النطاق الوصول إلى معدل تحقيق 
منخفض ومعدل استدعاء مرتفع عند قياس معدلات الاستدعاء والتحقيق 
بالمقارنة بغيره من أنواع البحثء فإن البحث الموضوعي أو المفاهيمي يعد أكثر 
أنواع البحث تعقيداًء نظراً لأنه يحتاج إلى التقييم من جانب المستفيد باستخدام 
ol‏ الأساس eR SY ie phd‏ والعحقيق: 
النوع الخامس: البحث بالفقرات Passage Search‏ تمت الإشارة إليه سابقاً فى 
الفصل الأول» حيث يركز هذا النوع من أنواع البحث على استرجاع فقرات من 
على وظائف الفرز والترتيب Live Filtering functions‏ أساسية. وعلى الرغم من 
ظهور هذا النمط خلال السنوات الأخيرة. إلا أنه أظهر إمكانيات كبيرة في دعم 
مستويات الدقة والتحقيق فى النتائج المسترجعة. 
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لقدتم في هذا الجزء شرح وتفصيل 5 أنواع من البحث هي: البحث بمادة معروفة» 
البحث السلبي» البث الإنتقائي للمعلومات» البحث المركب (نقاط بحث موضوعية وغير 
موضوعية)» والبحث بالجمل. وتجدر الإشارة إلى أنه توجد تصنيفات أخرى لعمليات 
البحث مثل ما ورد عن كل من )1999 (Baeza-Yates and Ribeiro- Neto‏ حيث قاما 
بتصنيف البحث إلى فئتین أساسيتين هما: عشوائى Ad-hoc‏ وتصفية Uy Filtering‏ كان 
سلوب تصنيف عمليات البحث» فإن الهدف النهائي هو أن يستطيع المستفيد أن يحدد 
الأسلوب الملائم للبحث وبناء استراتيجية بحث سليمة تتوافق وتلبي احتبياجاته. 


> 8.1.3 اسقراتيجيات البحث 


Search Strategies 


تعرف استراتيجيات البحث بأنها عملية تحويل الاستفسار أو الطلب على 
المعلومات إلى طريقة لإجراء البحث بنظم استرجاع المعلومات. وقد صنف كل من 
فينشل وهوجان )1981 Fenichel & Hogan,‏ في العصر الذهبي للبحث على الخط 
المباشرء استراتيجيات البحث تحت أربع OLS‏ رئيسة هي كالتالي: 


> 8.1.3.1 اسستراتيجية أعمدة البناء 
Building Block Approach‏ 


تبدأ استراتيجية أعمدة البناء بالبحث عن مفهوم واحد Single Concept‏ ومن 
نماذج استراتيجية المفهوم الواحد ما تم شرحه في عملية البحث عن الاستفسار 
الخاص بتصفية النزاعات في الشرق الأوسط في جدول رقم (7.2) وفقألماتم 
شرحه في عملية تحليل المفاهيم. ووفقاً لتلك الاستراتيجية يتم البحث عن كل 
مفهوم على حدة بصورة مستقلة» وبعد البحث عن المفاهيم المستقلة يتم الدمج بين 
تلك المفاهيم باستخدام معاملات الربط البوليني. 


وتعتمد تلك الاستراتيجية على تحليل عمليات البحث المعقدة إلى عمليات أكثر 
بساطة» ما يتيح للمستفيدين إمكانية تصحيح أو ضبط استراتيجية البحث في الوقت 


الفصل التامن 


المناسب أثناء إجراء عملية البحث. من ثم لا يحتاج المستفيد إلى إعادة إجراء 
البحث بالكامل بسبب وجود خطأ في حرف أو هجاء كلمة في عبارة البحث. بالتالي 
فإن نموذج أعمدة البناء يقلل من حجم الضغط الذي يوضع على المستفيد» ويتيح 
له فرصة أكبر للتركيز على التفاعل مع نظام استرجاع المعلومات. ولهذا السبب 
فإن هذه الاستراتيجية تعد وسيلة مهمة للمستفيدين بصفة عامة لاكتشاف المفاهيم 
واكتشاف النتائج المرتبطة بهاء كما أنها تعد وسيلة مهمة لتعلم كيفية التعامل مع نظم 
استرجاع المعلومات خاصة للمستفيدين المبتدئين. 


> 8.1.3.2 استراتيجية كرة الثلج 


SnowBall Strategies 


تعرف استراتيجية كرة الثلج أيضاً باستراتيجية استخدام الاستشهادات في حصاد اللؤلؤة 
(Fenichel & Hogan, 1981)‏ حيث تساعد تلك الاستراتيجية على زيادة أعداد المصادر 
المسترجعة كما هو الحال في نمو كرات الثلج في وقت نزول الثلج. ومن الواضح أن 
هذا النموذج يسعى إلى زيادة معدلات الاستدعاء» حيث إنه وفقاً لهذا الأسلوب يقوم 
المستفيد بإجراء بحث مبدئي وفقا للنتائج المسترجعة ثم يقوم بتعديل الاستفسار. وتعتمد 
عملية التعديل على مراجعة وفحص النتائج المسترجعة واختيار المصطلحات الملائمة من 
تلك النتائج من خلال كلمات العناوين والواصفات والكلمات المفتاحية الواردة في النتائج 
المسترجعة» ثم إعادة استخدامها وتوظيفها في إعداد استراتيجية أكثر إحكاما. ومن الممكن 
أن تتم تلك العملية أكثر مرة» بحيث يتم في كل مرة مراجعة المصطلحات المستخدمة 
وتعديل الاستراتيجية حتى يصل الباحث إلى أعلى مستويات الرضا عن النتائج المسترجعة. 


فعلى سبيل المشال إذا قام مستفيد بالبحث عن موضوع الكتب الإلكترونية 
Eiectronic Books‏ وقام النظام باسترجاع وثائق عن Stephen King‏ ووثائق تستخدم 
مصطلح ebooks‏ يقوم المستفنك باستخدام استراتيجية كرة الثلج بتعديل استراتيجية 
البحث ووضع تلك المصطلحات بالاستراتيجية الجديدة» بغرض توسيع نطاق 
البحث والحصول على كل النتائج الممكنة في هذا الموضوع. فالمتخصص في 
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مجال الكتب الإلكترونية بعلم أن Stephen king‏ أول مؤلف شهير يقوم بنشر كتابه 
في صورة إلكترونية» كما يعلم أيضاً أن مصطلحات ebook, EPUB‏ هي اختصار 
للمصطلح الكامل electronic book‏ لذلك يجب تضمينها في عملية البحث. وتعتمد 
استراتيجية كرة الثلج في جوهرها على استخدام إمكانيات البحث المتقدم» وتسعى 
onl‏ توسيع نطاق الاستفسار Query Expansion‏ اللذين تمت مناقشتهما سابقا. وقد 
أطلق كورفهج )1997 (Korfhag,‏ على هذه الممارسة معالجة الاستشهادات. ويمكن 
القول إن استراتيجية كرة الثلج تعد استراتيجية مفيدة في حالة حاجة المستفيد الذي 
بخ ج إلى دحت ths Melk adie‏ الو هر الى بسك ا يرن 
توسيع نطاق البحث. 


> 8.1.3.3 استراتيجة التجزيء المتوالي 


The Successive Fraction Approach 


تعد استراتيجية التجزيء المتوالي النموذج العكسي لاستراتيجية كرة الثلج» 
حيث تبدأ عملية البحث وفقاً لتلك الاستراتيجية باستخدام المفاهيم العريضة Broad‏ 
Concept‏ ثم يتم تضييق نطاق البحث بطريقة متتالية وفقاً لما سيتم اكتشافه من نتائج» 
عند صياغة عبارة البحث. LS‏ سبقت الإشارة إلى معاملات الربط البوليني فإن 
المعامل NOT‏ يستخدم لاستبعاد مصطلحات من عبارة البحث» Las’‏ يستخدم 
المعامل AND‏ في تحديد نطاق البحث بالربط بين منطقة التماس أو التداخل بين 
المفاهيم. ويستخدم المعامل with‏ أيضاً في تضييق نطاق البحث من خلال تحديد 
موضع المصطلحات في العبارة البحثية» والتي يجب أن ترد معاً. ومن أساليب 
التحديد أو تضييق نطاق البحث استخدام المحددات غير الموضوعية Non Subject‏ 
Attributes‏ مثل لغة أو نوع أو سنة نشر الوثيقة. ويعد التحديد باستخدام المحددات 
غير الموضوعية أكثر سهولة من استخدام المعاملات التي تربط بين المفاهيم في 
التحديد. نفترض أن باحثا يريد البحث عن موضوع تصفية الويب Web Filtering‏ 
كموضوع جدلى Controvensy‏ وليس كموضوع تكنولوجى وبدأ البحث بالمصطلح 


الفصل التامن 


تصفية Filtering‏ بالطبع فإن النتائج سوف تتضمن كل شيء له علاقة بالتصفية أو 
الفلترة يشتمل عليه نظام استرجاع المعلومات. في هذه الحالة لابد من استخدام 
استراتيجية التجزيء المتوالي لكي يتم الوصول إلى الهدف المحدد من جانب 
المستفيد. فعلى سبيل المثال في هذه الحالة يتم إضافة المصطلح الويب web‏ لعبارة 
البحث باستخدام المعامل AND‏ لتصبح عبارة البحث :Filtering AND Web‏ كما 
يمكن إضافة المصطلح Controversy‏ بنفس الطريقة بعد إجراء البحث بالعبارة السابقة 
والنظر في حجم النتائج المسترجعة ومدى تطابقها مع احتياجات المستفيدين. على 
أن يتم استخدام المعامل NOT‏ في تلك الاستراتيجية لتصبح كمايلي: Filtering‏ 
AND Web Not Controversy‏ 


بالتالي يتم استبعاد أي نتائج ذات علاقة بمصطلح تكنولوجيا المعلومات information‏ 
technology‏ ومن الممكن تحديد عملية البحث بصورة أكثر تفصيلا للوثائق التي 
نشرت بين عامي 1990 2000 من خلال استخدام المعامل AND‏ لتصبح استراتيجية 
البحث (جدول 8.1) تقسيم المفاهيم والربط بينها وفقا لاستراتيجية التجزيء المتوالي: 














Search Field Operator Search Term المصطلح البحثي‎ 
key words Filtering الفلترة‎ 
key words AND Web الويب‎ 

Publishing Year NOT Controversy الجدل‎ 
1990- 0 




















فكما أوضحنا يسعى نموذج استراتيجية التجزيء المتوالي إلى تضييق نطاق 
البحث خطوة بخطوة باستخدام إمكانيات التحديد والتضييق المتاحة بنظم 
استرجاع المعلومات. ويتطلب هذا الأسلوب أن يكون المستفيد على دراية وأن يتم 
تدريبه وتأهيله على آليات وإمكانيات تضبيق نطاق البحث المتاحة بنظم استرجاع 
المعلومات» إلى جانب تدريبه على التفاعل مع النظام أثناء عملية البحث. وتتطلب 
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عملية التفاعل مع النظام أن يقوم المستفيد بالاطلاع على عناوين ومستخلصات 
النتائج المسترجعة في كل دفعة من دفعات البحث لتحديد مدى مطابقاتها للمفهوم 
الذي يبحث عنه» أم أنه توجد حاجة إلى تضييق أو توسيع المفهوم. وتجدر الإشارة 
إلى أن LAS‏ كانت عاملاً مؤثراً في استخدام ذلك النوع من عمليات البحث في 
النظم المتاحة على الخط المباشر Online System‏ خلال السبعينات والثمانينات من 
القرن الماضي. ونظراً لحاجة المستفيد إلى التعامل مع النظام لفترات طويلة كانت 
عملية البحث في ذلك الوقت تتم عبر خطوط الهاتف الدولية» ما كان يمثل أكبر 
عناصر الكلفة في تلك النظم» إلا أن ظهور الإنترنت وانتشار استخدامه في إتاحة 
عمليات البحث بقواعد البيانات» قلل من تلك التكاليف بصورة كبيرة» حتى أصبح 
وقت عملية الاتصال عنصراً غير مؤثر في LAS‏ على الإطلاق. ومازالت كل نظم 
استرجاع المعلومات تعتمد بصورة كبيرة على إمكانيات تحديد نطاق البحث لتيسير 
ارات الى ءالدال 


> 8.1.3.4 اسستراتيجية الوجه الأكثر تحديداً 
The most Specific Facet Strategy‏ 


psn‏ أي افجية ll‏ جدا ل كر تحديدا Si shines‏ مع الاحتياجات البحثية 
متعددة الأوجه )1981 (Fenichel & Hogan,‏ وتفترض تلك الاستراتيجية أن المستفيد 
يعرف جيداً كل أوجه الموضوع الذي يبحث عنه ويستطيع تجزئته إلى مجموعة 
مفاهيم تتضمنها العبارة البحثية» ثم يقوم بتحديد أكثر تلك المفاهيم أهمية وتحديدا. 
وتعد تلك الاستراتيجية من أكثر الاستراتيجات كفاءة» حيث إنها تستغرق أقل قدر 
من الوقت» نظراً لأن المستفيد يبدأ عملية البحث بأكثر المفاهيم تحديداً. ويرجع 
ذلك إلى أن نتائج البحث عن أكثر المصطلحات تحديدا تساعد المستفيد في التعرف 
إلى الحجم المتوقع للنتائج في تلك الاستراتيجية» فقد يكون من غير المنطقي 
الاستمرار في البحث بنفس الاستراتيجية إذا كان البحث بأكثر المصطلحات تحديدا 
يسترجع عدداً محدوداً من النتائج أو لا يسترجع أي نتائج على BABY‏ حيث إن 
ذلك سوف يؤدي إلى استراتيجية صفرية (zero strategy)‏ أي تسترجع صفرامن 
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النتائج) أو استراتيجة الندرة Strategy of Few‏ التي تسترجع عدداً محدوداً من النتائج 
لكى تفى باحتياجات المستفيد» وذلك فى مقابل استراتيجية الوفرة» The strategy‏ 
cof Abundance‏ فعلى سبيل المثال الموضوع التالي forty‏ على ثلاثة أوجه رئيسة: 


Treatment of prognosis of neuroendocrine 75 


من ثم يكون الموضوع جرعات علاج أورام الغدد الصم عصبية بالرئة» وهو كما 
يتضح موضوع معقد ومن ثم نلاحظ أن هذا الموضوع ينقسم إلى ثلاثة أوجه رئيسة 
هى كالتالى: 

الو جه الأو id‏ جرعات علاج Treatment and prognosis‏ 

الوجه الثانى: أو رام الغدد الصم عصبية neuroendocrine trumors‏ 


الوجه الثالث: الرئة lung‏ 


ومن بين هذه الأوجه الثلاثة يتضح أن موضوع أورام الغدد الصم عصبية هو الموضوع 
الأكثر أهمية والأكثر تحديداًء ويجب أن يتم البحث به أولاً وفقاً لهذه الاستراتيجية. فإذا 
استرجع البحث بالمصطلح 75 neuroendocrine‏ وثيقتين فقط على سبيل المثال» 
فإنه من المحتمل ألا يسترجع البحث بعد إضافة الأوجه الأخرى أي وثائق أخرىء ما 
يؤدي إلى استراتيجية صفرية» حيث إن البحث بالمصطلحات الثلاثة باستخدام معامل 
الربط AND‏ الملائم لتلك الأوجه لن يسترجع بأي حال من الأحوال أكثر من وثيقتين» 
إلا أنه من المحتمل أن يسترجع عدداً أقل من الوثائق؛ واحداً أو صفر. وعلى الرغم من 
كفاءة هذا النوع من أنواع استراتيجيات البحث. إلا أنه نموذج في غاية التعقيد نظراً 
لأنه لا يمكن إنكار مدى تعقيد عملية التحليل المفاهيمى التى يتضمنها وخاصة التركيز 
على أكثر المفاهيم تحديداً» ما يجعله نموذجاً صعباً بالنسبة للمستفيد المبتدئ والبسيط؛ 
حيث إن عملية تعيين أكثر المفاهيم تحديداً من الاحتياجات متعددة المفاهيم تعد عملية 
معقدة إلى حد ما. لذلك فإننا لا نوصي باستخدام هذا النموذج من جانب المبتدئين في 
عمليات الببحث واسترجاع المعلومات. 
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ومن الممكن عمل امتداد لاستراتيجة المفهوم الأكثر تحديداً بالاعتماد على 
استراتيجية الوجه الثاني الأكثر تحديداً the second most specific face‏ حيث يتم اختيار 
ثاني أكثر مفهوم تحديدأً في حالة تعذر التعامل مع المفهوم الأول ويتم استخدامه في 
إجراء البحث. ومع ذلك فإن هذا 00 من ie ie ae‏ مايتم استخدامه 
وهوجان )1981 (Fenichel & Aon‏ بو صف هذه ديه باستخدام vale‏ 
اتجاه الندرة ول the lowest first approach‏ فى إشارة إلى أن الوجه الأكثر تخدیداً 
عادة ما يسترجع أقل عدد من النتائج. 


> 8.1.4 نحو الاستراتيجية الأكثر ملاءمة وسرعة 


سبقت الإشارة إلى أن كل استراتيجيات البحث تم بناؤها وتطويرها في وقت 
انتشار ونمو النظم المتاحة على الخط المباشرء وأن هذه الاستراتيجيات لم تعد 
ملائمة للبيئة الرقمية الجديدة. فقد شهدت بيئة استرجاع المعلومات تغييرات كبيرة 
مع ظهور نظم استرجاع الإنترنت» كما أن المستفيدين أنفسهم حدثت لهم تغييرات 
كبيرة» حيث اختفى دور وسيط المعلومات الذي كان يقوم بالبحث نيابة عن المستفيد 
النهائي» وأصبح المستفيد يتفاعل بصورة مباشرة مع أنظمة استرجاع المعلومات. 
وعلى الرغم من أن استراتيجيات مشل أعمدة البناء واستراتيجية كرة الثلج لاتزال 
من أكثر الاستراتيجيات تفضيلاً من جانب قطاع كبير من المستفيدين» إلا أن القطاع 
الأكبر من المستفيدين يفضل البحث بكلمة واحدة أو مجموعة كلمات دون استخدام 
أي محددات أو علاقات وروابط بولينية فيما بينها وهو النموذج الذي تعتمد عليه 
محركات بحث الإنترنت» التي تستخدم نموذج البحث السريع من خلال صندوق 
بحث سيط Jansen, Spink & Saracenvic, 2000; Siegfried, Bates& Wilde,)‏ 
3 وفي المقابل نجد أنه نادراً ما يستخدم المستفيدون من نظم استرجاع 
المعلومات اليوم استراتيجية التجزيء المتوالي أو استراتيجية الوجه الأكثر تحديداً 
أولاً. ومن ناحية أخرى نجد أن بعض أنظمة استرجاع المعلومات تستخدم بعض 
الإمكانيات الأساسية في البحث مثل نوع لغة (مضبوطة أم لغة طبيعية) في الأنظمة 
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التي تستطيع توفير آليات بحث متنوعة» معاملات الربط البوليني وتدمجها في واجهات 
استرجاع المعلومات الحديثة» حيث يمكن للمستفيد أن يحدد خيارته في البحث من 
خلال نماذج البحث Search Forms‏ أو الأزرار المجهزة مسبقاً Predefind Buttons‏ 
أو القوائم المنسدلة Drop Down Menus‏ دون الحاجة إلى كتابة تلك الخيارات في 
صندوق البحث. 


وعلى الرغم من تنوع آليات البحث وتعددها وابتكار العديد من الأساليب التي 
تمكن المستفيد من الوصول والاكتشاف» إلا أن آليات وإمكانيات البحث المتنوعة تقف 
قاصرة عن تلبية العديد من الطلبات المعرفية للمستفيدين وفقاً لإمكانياتهم وقدراتهم 
البحثية والتي يجب أن يراعيها أي نظام استرجاع معلومات» ما اضطر الباحثين في 
مجالات استرجاع المعلومات إلى البحث عن آليات توفر بدائل للمستفيدين في 
الوصول إلى مصادر المعلومات. وتمثلت تلك الآليات في الاسترجاع بالتصفح 
والذي سيتم عرضه في الجزء التالي. 


> 8.2 الاسترجاع بالتصفح 


Retrieval By Browsing 


يعد التصفح أحد أهم أساليب استرجاع المعلومات» على الرغم من أنه لم يلق 
الاهتمام الكافي من جانب المهتمين باسترجاع المعلومات» مقارنة بالبحث حتى الثمانينات 
والتسعينات من القرن الماضىء والتى شهدت نمو وانتشار أنظمة الأقراص المدمجة» 
والفهارس المتاحة على الخط المباشرء إلى جانب بيئة الروابط الفائتقة في الشبكة 
العنكبوتية العالمية. وقد أدى انتشار تلك التقنيات إلى اكتساب التصفح شهرة واسعة 
وبسرعة كبيرة» حيث أصبح يمثل جدوى اقتصادية في عمليات استرجاع المعلومات. 
في الوقت الذي تغيرت فيه أساليب الاتصال من النظم المتاحة على الخط المباشر التي 
كانت عملية الاتصال التليفوني فيها مكلفة جدا إلى نظم استرجاع المعلومات من خلال 
قواعد البيانات المتاحة على الإنترنت» من ثم أصبحت كل نظم استرجاع المعلومات 
تتيح التصفح كأحد وسائل الوصول التي تيسر للمستفيدين القيام بهذا الدور. 
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> 8.2.1 ما هو التصفح 

التصفح هو عملية اختيار المعلومات الملائمة لاحتياجات المستفيدين من خلال 
قوائم عامة باستخدام آليات القراءة بالقشط والمسح وغيرها من الأنشطة المشابهة. 
ويسعى المستفيدون إلى استخدام التصفح وسيلة لاسترجاع المعلومات للحصول 
على مايلي: 


ماهي الفئة التي ينتمي إليها هذا الموضوع؟ ومن الممكن في هذا الإطار 
أن يتم تطوير آلية دولية لبناء شبكة اجتماعية لتعريف الكيانات ووضعها في 
فغات تحدد مجالها ومداها المعرفى. 


3. معلومات عامة عن الموضوع و/ أو الموضوعات التي يغطيها نظام استرجاع 
المعلومات. 


4 مساعدة المستفيد على الاختيار من بين مزيج من المواد الصالحة وغير الصالحة. 
5 اكتشاف والتعرف إلى المواد الجديدة الى يتم إضافتها gal‏ قواعد البيانات. 


وقدتناول مارشونيني ووايت )2007 (Marchionini & White,‏ موضوع التصفح 
بصورة أكثر Ohad‏ واستعرض أهميته والحاجة إليه» إلى جانب شرحه بصورة أكثر 
Lise‏ وأشار إلى أن كل المتطلبات السابقة تمثل أهمية كبرى للمستفيدين» ولكي تستطيع 
نظم استرجاع المعلومات أن تخدم المستفيدين بكفاءة فإن عليها أن توفر إمكانيات 
التصفح التي تساعد المستفيدين على الوصول إلى كل ما سبق. وقد أوضح كول Koll,)‏ 
0 أنه في حالات التعامل مع الإبرة في كومة قش أو الأكوام نفسها Needles or‏ 
hystacks‏ أو ما شابه» فإن التصفح بعد الوسيلة الأفضل لاسترجاع المعلومات. 

فعند التصفح Y‏ يحتاج المستفيد إلى التعبير عن المشكلة المعلوماتية في صورة 
اصطلاحية محددة باستخدام عبارة بحثية» كما هو الحال في عملية البحث. فعملية 
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التصفح تحتاج إلى جهد معرفي أقل بكثير مما تحتاج إليه عملية البحث. وذلك رغم 
أنه أثناء عملية البحث يجب أن يظل المستفيدون على اتصال وتفاعل دائمين مع نظم 
استرجاع المعلومات بغرض فحص وقياس أو تقييم المعلومات من خلال عمليات 
التصفح بالقشط أو المسح ثم إصدار أحكام صلاحية عن مدى دقة المعلومات 
المسترجعة» ما يجعل الحمل المعرفي Congnitive load‏ الذي يبذله المستفيد في عملية 
تصفح النتائج المسترجعة أكبر بكثير من اختيار البحث كوسيلة لاسترجاع المعلومات. 
وعلى عكس البحث» فإن التصفح عملية حدسية لا تحتاج إلى تدريب أو خبرة كوسيلة 
لاسترجاع المعلومات. وقد أو ضح مارشيونيني ووايت )2007 (Marchionini & White,‏ 
أن عملية التصفح هي عملية طبيعية» نظراً لأنها توافق نظرة الإنسان للمصادر الطبيعية 
والعاطفية والمعرفية» وتتسق مع رؤيته ومراقبته للعالم المادي والبحث عن العناصر 
المادية. من ثم فإن عملية التصفح تتسم بالسهولة كعملية التنفس عند الإنسان. وعلى 
الرغم من ذلك فإنه توجد بعض الآليات المتطورة التي تيسر عملية التصفح» وعادة ما 
يعاني المستفيد من مشكلة عدم وجود إرشادات كافية تمكنه من الاعتماد عليها لمعرفة 
متى يحتاج إلى الاستمرار في عملية التصفح ومتى يجب أن يتوقف عن تصفح مصدر 
معين؟ وهذا أمر يشبه القرار الذي يتخذه المؤلف عند التحول من القراءة إلى الكتابة» 
حيث إن عمليات البحث والتصفح والحاجة إلى الاستمرار في القراءة والتوقف لبدء 
الكتابة أو الاستمرار في الكتابة والتوقف والتوجه نحو النشر كلها عمليات معرفية 
تحتاج إلى قرارات شخصية وتعد مؤشراً قوياً للنضج المعرفي لدى الشخصء كما أنها 
أمور ترتبط بالإشباع المعر في -Knowledge Satisfaction‏ 


وتجدر الإشارة إلى أن التصفح قد يكون نشاطاً فعالاً في كثير من الأحيان» 
حيث يقود المستفيد بالمصادفة للوصول إلى معلومات لم تكن متوقعة» فالتصفح 
يتيح للمستفيد البحث عن المعلومات بصورة عشوائية وبطريقة غير مهيكلة في ذهنه 
مقدماًء ولا توجد عبارة بحثية محددة» وكأي نشاط من أنشطة التفاعل مع المعلومات؛ 
فإن التصفح له العديد من المزايا والكثير من العيوب» كما أن له آليات متنوعة 
ومتعددة سيتم عرضها فيما يلي: 
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> 8.2.2 أنواع التصفح 

فكما أشرنا من قبل فإن عملية التصفح تعد طريقة غير مهيكلة لاسترجاع 
المعلومات» ويقصد بعدم الهيكلة أن المستفيد ليس لديه تصور واضح لهيكل 
المعلومات» كما يفتقر إلى التحديد الاصطلاحى والعبارة البحثية الواضحة التي يتم 
صياغتها في صورة استراتيجية بحث. وقد صنفت العديد من الدراسات أنواع التصفح 
ومنها )2007 .(eg: Herner, 1960; Kowalski,2007; Marchionini & White,‏ ولعل 
أبرز هذه التصنيفات تصنيف هرنر )1960 (Herner,‏ الذي صنفها إلى ثلاث فئات هى: 

pe | =‏ المباشر Direct Browsing‏ ويقصد به الت لتصفح من أجل الوصول 

إلى مادة أو مواد محدد ومعروفة. 

- التصفح شبه المباشر ‘Semi Direct Browsing‏ يقصد به التصفح من أجل 
الوصول إلى مادة أو مواد قريبة من صور ذهنية شبيهة من مادة معينة فى 
ذهن المستفيك:. 

5 التصفح غير المباشر Non Direct Browsing‏ وقد أشار إليه هرنر بالتصفح 
العشوائي الذي يقوم به المستفيد من أجل الوصول إلى أي معلومات ذات 
علاقة بموضوع معين دون أن يكون لدى المستفيد صورة ذهنية محددة أو 
شبه محددة لما يحتاج إليه أو ما يمكن أن يصل إليه. 

كما قام مارشيونينى ووايت )2007 (Marchionini & White,‏ بتصنيف الت لتصفح 

إلى ثلاث فئات شبيهة لتصنيف هرنر هي: 

Systematic النظامى‎ — 

Exploratory الاستكشافى‎ - 


Casual or Non -systematic العرضى أو غير النظامى‎ - 


يستخدم التصفح المباشر أو النظامي عندما يكون المستفيد على علم تام بما 
يبحث عنه مثل التصفح من أجل الوصول إلى صفحة معينة بأحد المواقع أو 
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الوصول إلى كلمة محددة في قاموسء بينما يستخدم المستفيدون التصفح شبه 
المباشر أو الاستكشافي عندما لا يكون لديهم أهداف دقيقة واحتياجات محددة. 
وتظهر هذا الحالة في مرحلة استكشاف جوانب الموضوع من خلال البحث» فيقوم 
المستفيدون بعمليات القشط والمسح لتحديد ما يبحثون عنه. فعلى سبيل المثال» 
قديكون المستفيد على علم بأن أحد التقارير قد ناقش موضوعاً أو فكرة مهمة» 
فيقوم المستفيد بتصفح التقرير للوصول إلى تلك الفكرة وتحديدها La y‏ لما ورد 
بالتقرير» دون أن يكون على علم مسبق بها. ويعد التصفح غير المباشر أو العرضي 
أقل أسلوب من أساليب التصفح تماسكاء حيث لا يمكن التنبؤ فيه بما سيصل إليه 
المستفيد أو مكان وجوده. ويتسم هذا الأسلوب بأنه ليس له احتياجات معلوماتية 
محددة» وأبرز نموذج لذلك عندما يقوم المستفيد بالقفز من خبر إلى آخر عند مسح 
موقع للأخبار أملاً في الوصول إلى شيء مفيد يمكن أن يقرأه. وهو مثل مايحدث 
مع الباحثين عند تصفح مجلة بموضوعات تدخل في نطاق اهتمامهم. 

وقد حدد كوالسكي )2007 (Kowalski,‏ ثلاثة أساليب يقوم بها المستفيدون 
لتصفح النتائج التي يحصلون عليها: 


o‏ التصفح وفقاللترتيب 


Browseng By Ranking 


تستعرض معظم نظم استرجاع المعلومات في البيئة الرقمية النتائج في صورة 
مرتبة بالاعتماد على خوارزمية ترتيب محددة» ويسعى كثير من المستفيدين إلى 
تصفح النتائج ذات علاقة الصلاحية الأقوى بموضوعاتهم ولا من ثم يقومون باختيار 
o‏ التصفح بالمخطقة 


Browsing By Zone 
المستفيد في مناطق محددة‎ GU عادة مايتم وضع المعلومات التي لها أهمية خاصة‎ 
عند عرض النتائج مثل حقول البيانات التقليدية (العنوان» المستخلصء تاريخ النشر.. الخ)‎ 
حيث تشتمل هذه الحقول على مواضع معلومات غنية يسعى المستفيد إلى تصفحها.‎ 
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o‏ التصفح بالمناطق البارزة 


Browsing By Highlighted Zone 


Syl She Wwe CU E E EE sate tena ا‎ RE 
من المناطق المهمة للتصفح.‎ 


إضافة إلى ما سبق فقد أشار كوالسكي )2007 (Kowalski,‏ إلى فئتين أساسيتين 
للتصفح تُستخدمان بكثافة في بيئة استرجاع المعلومات على الإنترنت وهما:- 

Browsing By Category التصفح بالفئات‎ - 

Browsing By Hyper links التصفح بالروابط الفائقة‎ - 


وقد برز التصفح بالفئات في أدلة بحث الويب Web Directories‏ مثل ياهو» ففي 
هذه النوعية من أدوات بحث الإنترنت يتم تجميع المعلومات وتصنيفها تحت فئات 
محددة مسبقا بناء على آليات التكشيف والتصنيف للفئات مثل الحاسبات» التعليم؛ 
الترفيه» الرياضة. فعلى سبيل المثال المستفيد الذي يبحث عن فيلم لكي يشاهده 
سوف يقوم طبيعياً بتصفح فئة الترفيه. ويعد التصفح بالروابط الفائقة أحد السمات 
المهمة التي تتميز بها بيئة الويب» والذي يعد الملمح الأساسي في كل الأنشطة 
والخدمات المتاحة من خلال بيئة الشبكة العنكبوتية. 

و الفائقة وحدات طرفية Nodes‏ 9 ومؤشرات Pointers‏ يتم وضعها ضمن 
النصوص الفائقة بحيث تحاكى بصورة ذكية طريقة التفكير العلائقى Associative‏ 
Thinking‏ لدى الإنسان» je.‏ ضح بوش (Bush,1945)‏ أن عقل الإنسان يعمل 
بطريقة علائقية» فمع استيعاب نقطة ما تنفجر Snap‏ معها في نفس الوقت إلى نقطة 
أخرى تقترحها من خلال ترابط الأفكار Association of Thoughts‏ في تطابق مع 
بعض العقد العنكبوتية المتشابكة لمحاولات خلايا المخ فك ذلك التعقيد. 


وقد تحول هذا النمط من التفكير الإنساني إلى واقع ملموس بشكل واضح وعميق 
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مع اختراع وتطبيق الروابط الفائقة من خلال تيم بيرنرلي. فالويب بأكملها تتكون من 
معلومات نصية ووسائط متعددة يتم ربطها معا في روابط فائقة. وتساعد تلك الروابط 
الفائقة على توجيه المستفيد لتصفح وإيجاد المعلومات الرقمية المتاحة على الويب. 
لذلك فإن نظم استرجاع المعلومات ذات البنية الفائقة Hyper Structuned IR System‏ 
أصبحت إحدى أبرز إن لم تكن أهم بيئات تصفح المعلومات الحالية. 


ويتضح مما سبق أن التصفح يمكن تصنيفه إلى عدة فئات باستخدام معايير 
متعددة» إلا أن الهدف من التصفح لابد أن يظل واحدا في نظام استرجاع المعلومات 


< 3 استراتيجيات التصفح 
Browsing Stratagies‏ 


يعد التصفح أحد آليات الوصول إلى المعلومات» مثله في ذلك مشل البحث» 
وتتم عمليات التصفح من خلال استراتيجيات متنوعة. وقد أوضح مارشونيني ووايت 
(Marchionini & White 2007)‏ أنه توجد أربع استراتيجيات للتصفح هي: المسح» 
الملاحظة. الإبحارء المراقبة. 


Scan المسح‎ 1 < 


يعد المسح أكثر استراتيجيات التصفح تنظيماً نظراً GY‏ يتعامل مع الكيانات 
المحددة تحديدا دقيقا في بيئات استرجاع المعلومات عالية التنظيم. فالمستفيد الذي 
يستخدم تلك الاستراتيجية يعرف بالضبط ما الذي يبحث عنه» حيث يبحث عن كيان 
محدد الهوية» من ثم فإنه يمسح المعلومات التي يتيحها النظام إما خطيا Linearly‏ 
أو اختياريا Selectively‏ ويتم المسح الخطي من خلال تصفح فضاء المعلومات 
باستخدام الية التتابع الخطي Sequential Linearly‏ التي يقوم فيها المستفيد 
باستعراض المواد مادة مادة )2007 c 9(Marchionini & White,‏ أبرز الأمثلة على 
ذلك مسح قائمة عناوين النتائج المسترجعة للوصول إلى المادة المطلوبة. 
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أما المسح الاختياري فيعني استعراض أجزاء محددة من المعلومات (على سبيل 
المثال الرؤوسء الروابط» الصورء والمحتوى المتاح بألوان مختلفة بمواقع الويب) 
دون غيرها من المعلومات التي يعرضها النظام. ويقوم المستفيد بمسح هذه العناصر 
لتحديد الفئات التي يرغب في الحصول عليها والاختيار من بينها. فقديبحث 
nal‏ جن مرق عن clones‏ ف إلى pal pel‏ المعو أو الوشائط saadi‏ 
وتعد استراتيجية المسح الاسترتيجية الأساسية التي تستند إليها آليات التصفح النظامي 
Systematic Browsing‏ والتي يتم تطبيقها في أدوات تصفح الإنترنت. 


Observation الملاحظة‎ 8.2.3.2 > 


مقارنة بالمسح تعد «الملاحظة» استراتيجية التصفح الرئيسة التي تستخدم في عمليات 
الاكتشاف أو التصفح العام Casual Browsing‏ حيث يجب أن يكون المستفيد منتبهاً إلى الأجزاء 
التي يتم عرضها ويكون على وعي بالمعلومات وبالأجزاء الأخرى التي يعرضها الموقع مثل 
الإعلانات حتى لا يتشتت انتباهه. بمعنى آخر أن النظام يعرض العديد من المعلومات للمستفيده 
لذلك لابد أن يكون المستفيد منتبهاً ويركز على احتياجاته ويتجاهل المعلومات الأخرى التي 
لاتدخل في نطاق اهتمامه حتى لا يتشتت في مواقع ليس لها علاقه باحتياجاته المعلوماتية. 


Navigation الإبحار‎ 8.2.3.3 > 


هو من استراتيجيات التصفح التي تسعى إلى تحقيق التوازن بين تأثير المستفيد 
وبيئة نظام استرجاع المعلومات» حيث تقوم بيئة استرجاع المعلومات بتقييد عملية 

كما تعتمد أيضاً استراتيجية الإبحار Navigation‏ على التغذية المرتدة من نظام 
استرجاع المعلومات» والتى يمكن أن تستخدم بصورة نظامية Systematic‏ أو عرضية 
5181 أثناء عملية التصفح. وتجدر الإشارة إلى أن استراتيجية الملاحظة غالباً مايتم 
تطبيقها مقترنة باستراتيجية الإبحار )2007 .(Marchionini & White,‏ 
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> 8.2.3.4 المراقبة االمتابعة 


هي استراتيجية تشبه استرتيجية المسح» لكنها تتم في البيئات ذات البنية المعلوماتية 
الفقيرة هيكلياً )2007 .(Poorly Structured Marchionini & White,‏ فأثناء قيام 
المستفيد بتصفح النتائج المسترجعة من النظام» من الممكن أن يقوم أيضا بمتابعة 
بعض التقارير الإخبارية التي يبثها النظام من خلال الراديو. وتعتمد تلك الاستراتيجية 
على فلسفة استخدام المسارات الموازية في البحث عن المعلومات (مسار تصفح 
المعلومات التي يحتاج إليها المستفيد يتم بالتوازي مع متابعة التقارير الإخبارية 
التي يبثها الراديو أو التلفزيون). وعادة ما تستخدم استراتيجية المراقبة (المتابعة) في 
عمليات التصفح الاكتشافى Exploratory Browsing‏ الذي يسعى إلى الوصول إلى 

ويمكن القول بإيجاز إن التصفح يعد إحدى آليات الوصول إلى المعلومات 
من خلال الاستعراض والاكتشاف. وتختلف AST‏ التصفح عن آلية البحث التي 
تمت مناقشتها سابقاً في مدى تحكم المستفيد في المدخلات وما ينتج عنها. ولا 
أو أن يتوقف عن التصفح. ولا توجد مؤشرات يمكن الاستناد إليها من جانب 
المستفيد في متابعة العمل باستراتيجية معينة أو تغييرها سوى طبيعة بيئة نظام 
استرجاع المعلومات. وعادة ما يعتمد المستفيدون على عدد من المعايير الكيفية 
في تحديد الاستراتيجية التي يتبعونها مثل مدى رضا المستفيد والجهد المعرفي 
المطلوب» وذلك من أجل اتخاذ القرار الملائم لاختيار استراتيجية التصفح 
الملائمة. كما أنه لا توجد خطوط فاصلة تحدد متى يمكن اختيار أي استراتيجية 
يتبعها المستفيدون وتحت أي ظرف. هل التصفح كوسيلة استرجاع يعمل بكفاءة 
الببحث» آم هل يعمل بكفاءة أعلى إذا تم استخدامه بشكل مستقل؟ ويحاول 
الجزء التالي الإجابة على هذه التساؤلات. 
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> 8.2.4 التكامل بين البحث والتصفح في الاسترجاع 


يعد البحث والتصفح أبرز الأساليب الفريدة والمميزة لاسترجاع المعلومات» 
فمنذ أكثر من نصف قرن مضى قام لوهان )1958 (Luhn,‏ بتصنيف طرق الاسترجاع 


إلى ثلاثة طرق أساسية هى: 
1. استرجاع المعلومات من خلال البحث في مصفوفة مرتبة Ordered Array‏ من 
التسجيلات المخزنة. 


2. استرجاع المعلومات من خلال البحث بمصفوفة غير مرتبة Nonordered‏ 
Array‏ من التسجيلات المخزنة. 


3. مزيج من الطريقتين السابقتين. 

ومما لا شك فيه أن المصطلحات وبنية نظم قواعد البيانات قد كثيراً مع 
التطورات التي حدثت خلال تلك الفترة. ومع ذلك يمكن النظر إلى الطريقة الأولى 
التي وصفها لوهان على أنها التصفح» والطريقة الثانية على أنها البحث. Lal‏ الثالثة 
فهي الطريقة التي يجب شرحها بتفصيل حيث تعمل على المزج بين الأسلوبين. 


< 8.2.5 المقارنة بين التصفح والبحث 


في الجزء السابق تم شرح ملامح عمليتي البحث والتصفح. وقد أشار كوكس 
(00,1992) إلى أنه يمكن النظر إلى التصفح على أنه يحدد مسار أين إلى ماذا Where‏ 
To What‏ وتستند الفكرة الأساسية إلى أن المستفيد يعرف أين يبدأ بقاعدة البيانات ويريد أن 
يعرف ما المتاح من مصادر بها. وعلى العكس فإن البحث ينطلق من ماذا إلى أين From‏ 
What to Where‏ وتستند الفكرة إلى أن المستفيد يعرف ما الذي يحتاج الوصول إليه وأين 
توجد تلك المعلومات بقاعدة البيانات. وقد وصف مارشونينى ووايت )& Marchionini‏ 
(White, 2007‏ البحث بأنه الاستراتيجية الرسمية والتحليلية ا إلى المعلومات» بينما 


وصف التصفح بأنه استراتيجية غير رسمية واعتباطية Informal and Heuristic‏ وبعيدا عق 
هذا الوصف فإن البحث والتصفح يختلفان عن بعضهما بعضاً في الجوانب التالية: 
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|| حاجة المعلومات أو الاحتياج المعلوماتي Information Need‏ 


تعد الحاجة إلى المعلومات إحدى أهم المعايير الأساسية التي يمكن على أساسها 
تحديد الطريقة الملائمة للوصول إلى المعلومات» سواء كانت من خلال البحث أو 
التصفح. ففى حالة الاحتياجات المعلوماتية المعروفة والمحددة. فإن البحث يظهر 
كأفضل اختيار للمستفيد» حيث إنه يساعد المستفيد في الوصول إلى ما يحتاج إليه 
بفاعلية وكفاءة» نظراً لأنه يبحث عن إبرة فى كومة القش .A Needle from Haystack‏ 


ll‏ وفي المقابل فإن التصفح يعد البديل الأمثل للمستفيد في حالة الاحتياجات 
المعلوماتية الفضفاضة (الواسعة) وغير المحددة. ويمكن للمستفيد في هذه الحالة 
استخدام تكتيكات (آليات) تصفح مختلفة مثل المسح والإبحار لتحديد ماإذا 
كانت توجد أي معلومات صالحة حول الموضوع الذي يبحث عنه بنظام استرجاع 
المعلومات أم لا تضاهي احتياجاته. كما أن التصفح يساعد في هذه الحالة على تمكين 
المستفيد من الوصول إلى التحديد الدقيق لاحتياجاته المعلوماتية والمصطلحات 
الملائمة لهاء ما يساعد على إجراء بحث أكثر دقة وكفاءة. 


Efficiency and potential for Improrement كفاءة وإمكانات التحسين‎ I 


عند المقارنة بين البحث والتصفح فإنه يجب أن يؤخذ في الاعتبار كفاءة 
الاسترجاع وإمكانية تحسين تلك الكفاءة. فيمكن القول بصفة عامة إن البحث سريع 
Quick‏ ومركز Focus‏ وموجه مباشرة إلى النقطة Right to The Point‏ التي يحتاج 
إليها المستفيدء في حين أن التصفح يستهلك وقتاً طويلاًء وغير مركز بدقة على 
نطاق محدد. كما أنه من المحتمل أن يؤدي إلى تشتت Distracted‏ المستفيد. وعلى 
الرغم من أنه توجد العديد من الأساليب التي يمكن بها للمستفيد أن يقوم بتضييق 
نطاق البحث» ما يساعد على تحسين مستوى أداء الاسترجاع» إلا أن ذلك لا يتحقق 
في التصفح الذي لا يوجد به آليات لتحسين cel‏ إضافة إلى أن المستفيد سوف 
يحصل على المعلومات فقط من الجزء الذي يتصفحه. ونظريا يمكن لعملية التصفح 
أن تستمر إلى ما لانهاية إذا لم يقم المستفيد بوقفها وإنهائها. في نفس الوقت الذي 
تنخفض فيه دقة عملية التصفح في هذه العملية الممتدة -Prolonged Process‏ 
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Cognitive Load الحمل المعرفي‎ IV 


يمكن تقسيم عملية البحث عن المعلومات إلى ثلاث خطوات أساسية هي: 
- تمثيل الاستفسار Representing the Queny‏ 
-إجراء البحث Conducting the Search‏ 


Evaluating the Results -تقييم النتائج‎ 


وتحتاج الخطوتان الأولى والثالثة حملاً معرفياً كبيراً نسبياً مقارنة بالخطوة الثانية 
إذالم يحاول المستفيد أن يتفاعل مع النظام أثناء عملية البحث. وفي المقابل فإن 
سوف تتحول إلى عملية عديمة الجدوى إذا لم يتفاعل المستفيد مع النظام» وظل 
منتبهاً لما ينم عرضه من النظام. وتجدر الإشارة إلى أن عملية التصفح منهكة 
لمعيل لني el de e e‏ الست يدك يسناج 
إلى تقييم نتائج التصفح بشكل مستمر وبسرعة وفقا لمعايير محددة لاختيار البديل 
المناسب الذي يمكنه من الانتقال إلى المرحلة التالية من التصفح. 

لذلك فإن التصفح يعتمد على قدرة المستفيد على تمييز النتائج الصالحة أثناء 
التصفح مقارنة باستدعاء Recall‏ النتائج الصالحة عند البحث في النظام» ما يضع عبئاً 
آخر على المستفيد. 


Serendipity المصادفة‎ .V 


تلعب المصادفة في عملية البحث دوراً محدوداً أو أنها غير موجودة Ly‏ نظراً 
OY‏ النظام يضاهي استفسار المستفيد Le‏ هو متاح بقاعدة البيانات. فمن غير العملي 
أو المحتمل أن يتمكن المستفيد من مسح النظام بأكمله لتمييز المعلومات التي 
تضاهي استفساره وتحديد ما إذا كانت هناك معلومات إضافية غير التي تم استرجعها 
من النظام. وفي المقابل فإن التصفح يخضع لاحتمالات المصادفة في الوصول إلى 
نتائج غير محتملة» حيث إنه من المحتمل أن يصل المستفيد إلى معلومات مفيدة 
وغير متوقعة عند تصفح النظام. 
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Efforts: small الا.‎ 


تتميز عملية البحث بأنها عملية منظمة لها بنية Structured‏ لذلك يمكن أن يتم تأهيل 
وتدريب المستفيد عليها بحيث يتمكن من التعامل مع كافة أنظمة البحث» وفي المقابل 
فإن عملية التصفح هي مجموعة إجراءات طبيعية حدسية تتم من جانب المستفيد ولا 
تحتاج إلى قضاء وقت في التدريب والتأهيل لتلك العملية» إضافة إلى ذلك فإن عملية 
التصفح لا تحتاج إلى تمثيل الاستفسار» ما يحرر المستفيد من مهمة صعبة معقدة جدا 
تتمثل في تحديد المصطلحات البحثية والربط بينها واختيار آلية البحث المناسبة. ويساعد 
تحرر المستفيد من كل هذه المهام المعقدة على التركيز أكثر على عملية التصفح. 
ويلخص الجدول8.1 pole‏ المقارنة بين البحث والتصفح والتي تتضمن خمسة محاور أساسية: 
جانب المقارنة | الاحتياج الكفاءة الحمل المعرفي المصادفة | الجهدالمطلوب 
المعلوماتي 
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التصفح واسع وغير منخفض ثقيل أكبر J‏ 


مؤكد 


























> 8.3 النهج المتكامل 


Integrated Approach 


أوضحت المقارنة الواردة في الجدول 8.1 أن لكل من البحث والتصفح مزايا 
وعيوباً. فكل منهما يعمل كطريقة استرجاع مثالية في ظروف معينة وبشروط محددة. 
ذلك على الرغم من أنه توجد بعض المواقف التي يبدو فيها أن هناك نهجاً أو طريقة 
أكثر ملاءمة من الأخرىء فإن تحقيق التكامل بينهما يؤدي إلى تحسين أداة الاسترجاع 
بصفه عامة. فمن الممكن ألا نحتاج إلى إجراء بحث في بعض الحالات. إلا أن التصفح 
يبدو أنه نشاط أساسي في كل عمليات الاسترجاع من أجل الحكم على صلاحية 
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النتائج المسترجعة. علاوة على ذلك» فإن أنظمة استرجاع المعلومات تم تصميمها 
لتحفيز وتشجيع المستفيدين على النهج المتكامل في مجتمع استرجاع المعلومات. 


ففي أنظمة استرجاع المعلومات التي تم تصميمها مع بدايات ظهور نظم 
الاسترجاع على الخط المباشر تم استخدام القوائم Menus‏ وخيارات البحث Search‏ 
98 بشكل متواز» من ثم يمكن للمستفيد أن يختار البحث أو التصفح حسب 
احتياجاته. ومع بداية نظم استرجاع المعلومات من خلال الإنترنت ظل النموذج 
الأساسي لتيسير الوصول إلى المعلومات هو استخدام الأدلة Directories‏ وآليات 
البحث lle Search Mechanism‏ جنب. وذلك على الرغم من أن بعض النظم 
التي تم تطويرها وإتاحتها للمجتمع العام في بدايات استرجاع المعلومات من خلال 
الإنترنت» استخدمت نموذجاً واحداً للوصول إلى المعلومات مثل استخدام ياهو 
للتصفح من خلال الآدلة واستخدام محرك البحث Altavista‏ للبحث» وليس كليهما. 


ولحسن الحظ فإن العديد من أنظمة استرجاع المعلومات على الإنترنت أدركت 
سريعاً مزايا دعم كل من آليات التصفح والبحث في نظام استرجاع واحد, ما أدى إلى 
تغيير تصميمها وبنياتها للأنظمة بشكل سريع. لذلك فإنه من الصعب أن تجد نظام 


ويتمتع المستفيدون بمزايا المنهج المتكامل ليس فقط لوجود كل الأدوات 
الملائمة للوصول إلى المعلومات» ولكن أيضاً لأن هذا النهج يمكنهم من الوصول 
إلى معلومات أكثر من نفس نظام الاسترجاع. فعلى سبيل المثال نجد أن ياهو Yahoo‏ 
يدعم البحث داخل إمكانيات تصفح الفئات التي يتيحهاء من ثم يمكن البحث في 
فئه واحدة مثل Arts‏ لذلك فإن البحث داخل فئة تصفحية واحدة يشبه البحث في 
قاعدة بيانات متخصصة في مجال الفئة التصفحية التي يتم البحث فيها. لذلك يمكن 
القول إن البحث والتصفح نموذجان متكاملان في هذه البيئة. وبطريقة مشابهة فإن 
نتائج البحث في نظم استرجاع المعلومات اليوم يتم تجميعها آليا في فئات لتيسير 
عمليات التصفح وتوسيع وتضييق نطاق البحث. من ثم فإن تطبيق البحث والتصفح 
في النظم يعطي قيمة مضافة» حيث إن واحد (البحث) مضاف إلى واحد (التصفح). 
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من الممكن أن يكون أكثر من اثنين إذا تم دمجهما بحكمة وكفاءة. daly‏ هذه المعادلة 
صحيحة في إطار النهج المتكامل الذي تم شرحه. 
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نماذج استرجاع المعلومات 


< 9 مقدمة 

يعرف النموذج Model‏ بأنه وصف دقيق لنظرية أو نظام i>i‏ فى الاعتبار كل 
الخصائص والملامح الخاصة بهذا النظام (1984, .(Soukhanov,et al‏ وقد تم 
تطوير عدة نماذج لاسترجاع المعلومات خلال النصف الثاني من القرن العشرين. 
ويستعرض هذا الفصل النماذج المختلفة لاسترجاع المعلومات بغرض وضع أساس 
الممارسة المهنية القائمة على فهم تلك النماذج المختلفة وطرق عملها. 

ويمكن تصنيف نماذج استرجاع المعلومات وفقاً لعدة مستويات. وقد اعتمدت 
الملامح الأساسية للتصنيف على نظريات ومفاهيم تم اشتقاقها من مجالات أخرى» 
منهاعلى سبيل المثال المنطق البولينى Boolean Logic‏ الفراغ الاتجاهى Vector‏ 
م الاحتمال Probability‏ . وقد وضع المتخصصون في استرجاع المعلومات طرقاً 
وأساليب متعددة لتصنيف كل نماذج استرجاع المعلومات التي تم تطويرها حتى الآن 
ومنهم )1997 .(Baeza —Yates & Ribeiro-Neto,1999; Sparck Jones & Willett,‏ 


وقدقام أنجو يرسن وجارفلين )2006 (Ingwersen, & Järvelin,‏ بتوسيع نطاق 
التصنيف والتقسيم إلى فئات لاسترجاع المعلومات الذي وضعه كل من بيلكن 
وكرافت )1987 Belkin and Craft,‏ والذي اشتمل على النموذجين الأساسين 
للمضاهاة وهما المضاهاة التامة Exact Match‏ والمضاهاة الجزئية Best Match‏ . 


ويركز هذا الفصل على النماذج الموجهة لخدمة النظم System Oriented Models‏ مثل 
المنطق البوليني» الفراغ الاتجاهي» الاحتمالات. أما النماذج الأخرى لاسترجاع المعلومات 
مثل النماذج المعرفية الموجهة للمستفيدين User Oriented Cognitive Model‏ فلن ينم 
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Information Seeking Behavior 


> 9.1 المضاهاة: أساس JS‏ نماذج استرجاع المعلومات 


تعد المضاهاة هي الأساس الذي تعتمد عليه كل أنظمة استرجاع المعلومات رغم 
أنها ليست نموذجاً إنما هي المكوّن الأساسي لأي نموذج. وقد سبقت الإشارة إلى أن 
المضاهاة هي الآلية الأساسية في كل أنشطة استرجاع المعلومات. فالمضاهاة يمكن أن 
تتم بين المصطلحات أو بين مقاييس تشابه Similarity Measuremeuts‏ مثل المسافة 
Distance‏ أو تردد المصطلحات pig -Term Frequency‏ مضاهاة المصطلحات مباشرة 
على المصطلحات التي تشتق أو تخصص لوصف الوثائق أو الاستفسارات أو غيرهما 
من أساليب التمثيل التي يتم على أساسها إجراء مضاهاة لمقياس التشابه Similarity‏ 
Measuremeut Matching‏ بصورة غير مباشرة على المقاييس التي يتم الحصول عليها 
هن ulead Lis‏ الحبباية .على سيل الخال المسافة بين الزوايا ge LoS‏ الحال فى 
تمرم E PL ill‏ وسو ف يركز القسماة OLN‏ على متاق هلين الترعين 
من أنواع المضاهاة. 


> 9.1.1 مضاصاة المصطلحات 
Term Matching‏ 


سبقت الإشارة إلى أن المصطلحات التي تستخدم في تمثيل المعلومات بنظم 
استرجاع المعلومات تأخذ أشكالاً متعددة مثل الكلمات المفتاحية (Keywords)‏ 
الواصفات Descriptors‏ المؤشرات Identifiers‏ وتشتمل المصطلحات على أشكال 
متنوعة fits‏ الكلمات» العبارات أو غيرها من أشكال التعبير مثل المعادلات.. الخ» 
إضافة إلى ذلك فإن مضاهاة المصطلحات من الممكن أن تتم في أي شكل من 
الأشكال الأربعة التالية: 


Exact Match المضاهاة التامة‎ — 


نماذج استرجاع المعلومات 


-المضاهاة الجزئية Partial Match‏ 
— المضاهاة بالمو ضع Positional Match‏ 
- المضاهاة النطاقية Range Match‏ . 


وسوف نتناول فيما يلي كل طريقة من طرق المضاهاة وطريقة عملها. 


> 9.1.2 المضاصاة التامة 
Exact Match‏ 


تعني أن تمثيل الاستفسار Query Representation‏ يضاهي اتل الوثيقة 
Document Representation‏ فى نظام استرجاع المعلومات. 


ولعل أبرز نماذج المضاهاة التامة البحث باستخدام الحروف الحساسة Case‏ 
Sensitivity‏ والبحث بالجمل والعبارات بنظم استرجاع المعلومات. فعلى سبيل 
المثال مصطلح تصفية أو فرز الويب Web Filtering‏ يمثل استفسار المستفيد ويظهر 


بنفس الشكل في الوثيقة وبالنظام الذي يتم البحث فيه. من ثم يحصل المستفيد على 
وا Lal‏ اا 


> 9.1.3 المضاهاة الجزئية 
Partial Match‏ 


على عكس المضاهاة التامة» فإن المضاهاة الجزئية تتعامل مع جزء فقط من 
مصطلحات الاستفسار والذي يظهر في النتائج المسترجعة والتي تعبر تمثيل الوثائق 
بنظام استرجاع المعلومات. ويعد البتر Truncation‏ في مصطلحات البحث أحد أبرز 
نماذج المضاهاة الجزتية. فعلى سبيل المثال عند البحث عن مصطلح Information*‏ 
ets.) Technolog‏ رمز النجمة للدلالة على البتر) obs‏ هذا الاستفسار سوف 
يستر جع وثائق تشتمل على Information Technolog, Information Technologist,‏ 
Information Technologies‏ كنتائج للمضاهاة الجزئية. 
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> 9.1.4 المضاصاة بالموضع 


Positional Match 


تتم المضاهاة بالموضع من خلال مراعاة موقع المعلومات بالوثائق تى أثناء عملية 
المضاهاة. ويعد البحث التجاوري Led ga Proximity Searching‏ لهذه الحالة. فإذا 
كان استفسار المستفيد هو متجر المواد المستعملة Used with Store‏ فإن النتائج 
| لمسترجعة سوف ت* تشتما على وثائق تتضم: عبارات مثل: 


Store Book Used 
Store Clothing Used 
Store Furniture Used 


وتتم عملية المضاهاة هنا بين تمثيل الاستفسار وتمثيل الوثيقة فقط على الكلمة 
الأولى والكلمة الأخيرة» على أن تأتي بينهما أي كلمة أخرى» ويتم تجاهل الكلمة 
التي تأتي في الوسط أثناء عملية المضاهاة. 


> 9.1.5 المضاصاة النطاقية 
Rang Match‏ 


تنطبق المضاهاة النطاقية على العبارات الرقمية مثل البحث عن قيمة التخفيض 
Sale Amount‏ أو التواريخ 6 أو العبارات ذات الترتيب الطبيعي مثل شهور السنة 
(يناير» فبراير»... ديسمبر) ويتم في المضاهاة النطاقية تحديد نطاق البحث بين 
نطاقين مثل الحد الأعلى Upper Limit‏ للاستفسار مثل البحث عن الوثائق التي 
نشرت قبل عام 2 والحد الأدنى Lower Limit‏ مثل الوثائق قى التي نشرت بعد 
عام 1992 أو كليهماء مثل البحث عن الوثائق بين الفترة 1993 إلى 2002. من ثم فإن 
قواعد البيانات الرقمية وتواريخ النشر تعد النماذج التقليدية البارزة للبحث النطاقي. 
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هذه الأنواع الأربعة من نماذج المضاهاة تتعامل مع الاستفسار الأصلي 
وتمثيل الوثائق دون الحاجة إلى إجراء أي عمليات حسابية أو تغييرات مثل 
التي تتم على خوارزميات البحث. وعادة ما تظهر مضاهاة المصطلحات 
في نموذج المنطق البوليني» آما في النماذج اللأخرى مثل مساحة الزاوية أو 
النموذج الاحتمالي» فإن مصطلحات الاستفسار وتمثيل الوثائق يتم المضاهاة 
بينهما بطرق غير مباشرة حيث يتم تحويلها إلى مقاييس تشابه Similarity‏ 
Measurement‏ قبل المضاهاة بينهما. 


> 9.1.6 مضاصاة مقياس التشابه 


يمكن إجراء مضاهاة مقياس التشابه بطرق متنوعة. ففي نموذج الفراغ الاتجاهي 
على سبيل المثال تتم المضاهاة بالاعتماد على المسافة بين الأسهم أو درجة 
مساحة الزاوية LAS Degree of Vector Angle‏ كانت مساحة الزاوية صغيرة» 
ازدادت درجة التشابه بين الاستفسار والوثيقة. وفي النموذج الاحتمالي يتم حساب 
التشابه على أساس تردد المصطلحات لتحديد احتمالات الصلاحية (العلاقة) بين 
الاستفسارات والوثائق. ففي هذه النوعية من نظم المضاهاة» يتم اختيار مقياس 
تشابه كمي (المساحة» التردد) وليس المصطلحات نفسهاء ويتم إجراء المضاهاة 
النهائية بالاعتماد على هذا المقياس الكمى. وتجدر الإشارة إلى أن مضاهاة مقاييس 
aL‏ سيرم Lot‏ أساليب TELS]‏ وإجراء عمليات البحث Lal Yep ee‏ 
من ناحية أخرى يمكن أن ينتج عنها أخطاء وضوضاء وخاصة في عمليات حساب 
مقاييس التشابه ودرجاتها. 

باختصار وبصرف النظر عن أسلوب المضاهاة» فإن المضاهاة هي الآلية الأساسية 
لاسترجاع المعلومات. وسوف تساعد النماذج التي سيتم مناقشتها في بقية هذا 
الفصل في التعرف إلى كيف تتم عمليات المضاهاة في الظروف المختلفة» إلى 
جانب النماذج المختلفة وملامحها ومزاياها وعيوبها. 
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> 9.2 نموذج المنطق البوليني 


يرجع النموذج البوليني إلى مخترع فكرة المنطق البوليني جورج بولي George‏ 
Boole‏ والذي قدمه فى منتصف القرن التاسع عشر. ويتعامل المنطق البوليني مع 
ثلاث معاملات منطقية أساسية هي: 

(X) Logical Product المعامل المنطقى للضرب‎ ٠ 

Logical Sum (+) المعامل المنطقى للجمع‎ ٠ 

Logical Difference )-( المعامل المنطقى للفرق‎ o 

وفي مقابل تلك المعاملات المنطقية الثلاث تم توظيف المعاملات AND, OR, NOT‏ 
لكي يتم استخدامها في العمليات المنطقية بنظم استرجاع المعلومات. وفي بدايات أنظمة 
استرجاع المعلومات على الإنترنت تم استخدام poles‏ الجمع )+( لتمثيل المعامل CAND‏ 
ما أدى في بعض الأحيان إلى حدوث بعض الخلط لدى المستفيدين» LN‏ تستخدم فعلياً 
(+) للدلالة على المعامل 0۸ فى دلالات المنطق البولينى. 

- يعتمد المعامل AND‏ على دمج مصطلحين أو أكثر معاً في عبارة البحث 

ويتطلب أن تظهر كل المصطلحات الواردة باستفسار المستفيد ويربطها 
المعامل AND‏ بحيث تكون ممثلة فى الوثيقة المسترجعة. 


- يستخدم المعامل OR‏ للجمع SUM‏ حيث يقوم بالربط بين مفهومين أو 
مصطلحين مرتبطين بعلاقة ما معا في عبارة البحث. ويستخدم للدلالة على 
ورود أي من تلك المصطلحات التي تحويها عبارة البحث المربوطة بالمعامل 
OR‏ بالوثيقة المسترجعة أو كل أو بعض المصطلحات. من ثم فالوثيقة التي 
تشتمل على أي من المصطلحات التي تم تخصيصها في عبارة البحث يتم 
اعتبارها وثيقة صالحة ويسترجعها النظام. 

- يساعد معامل الفرق أو المعامل NOT‏ على تقييد البحث من خلال استبعاد 
المصطلحات الواردة بعد المعامل NOT‏ من الاستفسار» من ثم استرجاع 
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الوثائق الت لا fonts‏ على :ذلك المضطلحات واست عاد الوثائق الى fords‏ 
عليها. وقد تم عرض العديد من النماذج والأمثلة على هذه الحالات 
Laks‏ واسستخداماتيا فى معالجحات المنطق البو لى 
وكما سبقت الإشارة فإن مورتيمر تيوب Motimer Tupe‏ هو أول من استخدم 
المنطق البوليني في استرجاع المعلومات. ومع تطور استخدام الأنظمة الآلية 
المحسبة في استرجاع المعلومات ازداد الاهتمام بتوظيف المنطق البوليني الذي أثبت 
جدارته وكفاءته فى تمثيل التعبير عن استفسارات المستفيدين. وفى العصر الرقمى 
الذي يعتمد بصفة أساسية على استخدام الإنترنت في إتاحة المعلومات» يوجد عدد 
محدود جداً من الأنظمة التي لا تدعم النموذج البوليني في البحث والاسترجاع. 
وقد أشار سبارك جونز وويليت )1997 (Spark Jones & Willet,‏ إلى أن نموذج 
المنطق البوليني يعد أكثر الآليات انتشاراً وتطبيقاً في عمليات استرجاع المعلومات. 
لكن هذا لا يعني أن المنطق البوليني كنموذج لاسترجاع المعلومات يخلو من العيوب 
وأن كله مزاياء فعلى العكس من ذلك توجد العديد من الدراسات التي تناولت 
المعلومات. ومن أمثلة هذه الدراسات Chowdhury, 2010 ; Cooper,1988;)‏ 
.(Frants,et 21,1999: Korfhage,1997; Spack - Jones &Willett, 1997‏ 


وسيتم فيما يلي استعراض تلك المزايا والعيوب بشيء من التفصيل: 


> 9.2.1 مزايا نموذج المنطق البولينى 

لقد أثبت التطبيق المكثف لنموذج المنطق البوليني باسترجاع المعلومات جدارة 
وكفاءة هذا النموذج بصورة واضحة. ويرجع ذلك لعدة أسباب: 

Voi‏ آنه يدعم معالجة الأوجه المتتوعة لاحتياجات المستفيدين» حيث ساعد 
على تفكيك الاستفسارات أو الوثائق إلى مفاهيم مستقلة والتعبير عن العلاقات بينها. 
فالمعامل AND‏ يقوم بالدمج بين وجهين مختلفين» ما يساعد على التعبير عن الأوجه 
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المعقدة لاحتياجات المستفيدين وتضييق نطاق البحثء Lol‏ المعامل OR‏ فيساعد على 
تحديد الأوجه المختلفة للاستفسار أو الوثيقة» ما يساعد على توسيع نطاق البحث 
من خلال توفير بدائل متنوعة للمصطلحات أو التعبير عنها بكلمات SIS‏ علاقة 
Les pile‏ ويساعد المعامل NOT‏ على فصل الأوجه المعقدة إلى أوجه أكثر بساطة» 
من ثم يتمكن المستفيد من استبعاد الأوجه التي لا يرغب في ظهورها في قائمة 
النتائج النهائية. من ثم فإن تطبيق نموذج المنطق البوليني يساعد على تحقيق المرونة 
والفعالية لمستوى لا يمكن لأي نموذج آخر لاسترجاع المعلومات أن ينافسه فيه. 

ثانياً: أن تطبيق نموذج المنطق البوليني بنظم استرجاع المعلومات أثبت فعالية 
كاف إلى التسعروي الذى eres‏ انمد cl laces‏ الأساسية السغيدية سن تنك 
النظم. فقد وصل عدد الأنظمة العالمية التي تطبق هذا النموذج في عمليات البحث 
والاسترجاع إلى الآلاف» حيث تُمكن هذه الأنظمة المستفيد النهائي من معالجة 
استفساره باستخدام معاملات المنطق البوليني لتوسيع أو تضبيق أو حتى استبعاد 
بعض الأجزاء من المفاهيم. وذلك على الرغم من أن بعض الباحثين مثل Belkin)‏ 
Croft, 7‏ &( يرون أن نموذج المنطق البوليني اكتسب شهرته من خلال الممارسة 
الواسعة وليس من خلال قوة نظريته. 


ثالثاً: يتميز نموذج المنطق البوليني بسهولة فهمه (Spack - Jones &Willett,1997)‏ 

وذلك على الرغم من أن عدداً محدوداً من الدراسات تناولت المقارنة بين ما يمكن 

للنظام تحقيقه في مقابل ما لا يستطيع أداءه كنموذج لاسترجاع المعلومات» والذي 

٠‏ الأول: أن نموذج المنطق البوليني هو الأقدم بين كل نماذج استرجاع 
المعلومات» ويعتقد الكثيرون أن مزاياه واضحة ولا تحتاج إلى تفسيرات 
إضافية. 

٠‏ الثاني: أن نموذج المنطق البوليني تعرض للكثير من الانتقادات التي كان 
يتم تفنيد وانتقاد النموذج البوليني؛ فمن الطبيعي أن يقوم القائمون على 
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تطوير النماذج الجديدة بتحديد القيود التي توجد في النماذج الآقدم» ومنها 
النموذج البوليني» والتي يمكن للنموذج الجديد التغلب عليها. ومع ذلك 
فإن مصممي ومطوري نظم استرجاع المعلومات من ناحية والمستفيدين من 
ناحية أخرى يفضلون العمل مع نماذج يمكن فهمها بسهولة. 
رابعاً: أن أنظمة استرجاع المعلومات القائمة على النموذج البوليني من السهل 
تطويرها عند مقارنتها بغيرها من الأنظمة» نظراً OV‏ الخوارزميات التي يعتمد عليها 
النموذج البوليني أكثر بساطة في التطبيق عن غيرها من الخوارزميات التي يتم تطبيقها 
في النماذج الأخرى. 
ونتيجة لكل ما ذكر سابقاً من مزاياء تشمل طريقة المعالجة واتساع الاستخدام» 
فإن نموذج المنطق البوليني قد حظي باهتمام كبير في كل الدراسات التي تناولت 
نماذج استرجاع المعلومات. 


> 9.2.2 صعوبات نموذج المنطق البولينى 
سبقت الإشارة إلى أن قيود وعيوب نموذج المنطق البوليني تم دراستها وتناولها 
ف العديد م٠‏ الدراسات مثا : owdhury, ; Cooper, ; Frants et al.,)‏ 
فى اليه الد اسا 1 Chowdhury, 1999; C 1988; F‏ 
Korfhage, 1997; Sparck Jones & Willett,1997‏ ;1999( وسوف يتم استعراض أهم 
العيوب التى تناولتها تلك الدراسات Lad‏ يلى: 
أولاً: صعوبة التطبيق 
والاسترجاع دون الحصول على القدر الكافي من التدريب والتأهيل والممارسة» 
وتكمن الصعوبة هنا في جانبين أساسيين هما: 
٠‏ من الصعب على المستفيد اختيار المعامل البوليني الصحيح دون معرفة أو 
تدريب؛ حيث إنه عادة ما يحدث خلط لدى المستفيدين فى معانى ودلالاات 
المعاملين AND‏ و OR‏ نظراً OY‏ لكلا المعاملين معنى مختلف عن المعنى 


الفصل التاسع 


التقليدي المستخدم ودلالته الشائعة» فالمعامل AND‏ عادة ما يستخدم 
في السياق التقليدي بمعنى إضافة )+( فعلى سبيل المثال عند القول إن 
المستفيد سيجري بجعا فى المح كبن Google and Bing‏ تعنى أنه سيجري 
ol‏ ن E LY Lag‏ اذه عا ميقي في Slee‏ العام بمعنى 
أي منهماء فعند القول إن الباحث سيجري بحثا فى Google or Bing‏ فذلك 
scale‏ ابسف فى أن ما ےآ کے الان العام AND‏ 
تعني البحث في عدد أكبر من محركات البحث من OR‏ وهو عكس مايتم 
تطبيقه في النموذج البوليني. ويوجد العديد من المستفيدين الذين يفكرون 
بنفس المنطق عند قيامهم بإجراء بحث بوليني؛ حيث يستخدمون المعامل 
AND‏ عند رغبتهم في البحث عن عدد كبير من النتائج» ويستخدمون OR‏ 
لتضييق نطاق البحث. ومن الواضح أن معاملات المنطق البوليني لا تعمل 
بهذهالطريقة»وقديؤدي هذا الخلط بالمستفيدين إلى اختيار المعامل الخطا. 


ومن الملاحظ أن المستفيد عادة ما يجد صعوبة في تركيب المعاملات البولينية 
وترتيبها بصورة صحيحة. فكما سبقت الإشارة إلى أن البحث البوليني المركب 
Compund Boolean Searching‏ يتكون من أكثر من معامل من المغاملات البولينية» 
وأن الترتيب الطبيعي لمعالجة المعاملات البولينية هو كالتالي: 


Pe‏ معالجة المعامل NOT‏ أولا. 
ثم يأني المعامل AND‏ ثانياً في الترتيب. 


وأخيراً تتم معالجة المعامل OR‏ 


وفي كثير من الأحيان يمكن استخدام الأقواس لتحديد شكل الترتيب الطبيعي 
لمعالجة المعاملات البولينية» وعادة مايتم ذلك في العبارات البحثية المعقدة» والتي 
تشتمل على العديد من العلاقات. وقد يختلف الترتيب في هذه الحالة عن الترتيب 
السابق» نظراً لأن الأقواس في هذا الحالة تحدد أولويات المعالجة عند التطبيق. مع 
العلم أن هذا الأسلوب معقد ونادراً ما يستخدم في معالجة الاحتياجات البحثية المعقدة» 
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ويتطلب هذا الأسلوب خبرة كبيرة في معالجة المعاملات البولينية وترتيبها والتركيب 
الاصطلاحي للمفاهيم التي تتضمنها العبارة البحثية. بالتالي فإن هذا الأسلوب Y‏ يصلح 
للمبتدئين في عمليات البحث أو لغير المتخصصيين في أنظمة البحث والاسترجاع. 
فالتعامل مع القواعد الاصطناعية للترتيب مثل معالجة الأقواس الداخلية TERM)‏ 
(AND TERM OR TERM‏ ليس أمراً سهلاً على المستفيد المبتدئ» وبتطلب تدريباً 
وممارسة وإتقاناً لآليات التركيب الاصطلاحي والبوليني معاً. 


ثانياً: صعوبة الاختزال لكل العلاقات بين المصطلحات 


من الصعوبات التي تحد من إمكانيات النموذج البوليني عدم القدرة على التعبير 
عن العلاقات غير البولينية بين المصطلحات» مثل العلاقات العرضية Casual‏ 
Relationship‏ وذلك لعدم وجود معامل يحقق تلك النوعية من العلاقات 8 النموذج 
البوليتى . تفعرقن أن ابح المسصيدين بجت هن معلومات عن تطيق الحاسب الآلى 
في التعليم «Application of Computer in Education‏ فعند استخدام المعامل AND‏ 
للربط بين المفاهيم المتنوعة وما ينتج عنها من استفسارات تكون العبارة البحثية في 
صورتها البسيطة كالتالي: Computer and Education‏ 


ومن الصعب أن يتم تمثيل المصطلح Application‏ لأنه كلمة عامة مثل مقدمة 
210 ونظرة عامة ..Genral Overview‏ الخ في بناء العبارة البحثية» ومن 
المفترض أن يتم التعبير عن هذه النوعية من المصطلحات بمعاملات تشملهاء إلا أن 
النموذج البوليني قاصر عن توفير هذه النوعية من المعاملات التي تمكن المستفيد 
من تضمين هذه النوعية من المصطلحات في عملية البحث. لذلك تقتصر الصيغة 
البحثية على Computer AND Education‏ مع ذلك فإن النتائج المسترجعة لهذه 
النوعية من الاستفسارات لن تقتصر فقط على معلومات عن استخدام الحاسب 
الا في التعليم» لكن ستشمل Last‏ معلومات عن تعليم الحاسب Computer ell‏ 
Education‏ وهو موضوع خارج نطاق اهتمام المستفيد في هذه الحالة» مايجعل 
بعض النتائج المسترجعة تعالج مفاهيم ليس لها علاقة باحتياج المستفيد الأصلي 


الفصل التاسع 


وتكون مضللة ومضيعة لوقت المستفيد الذي سيقضيه في فلترتها واستبعادها. وعلى 
ذلك فالنموذج البوليني يختزل كل العلاقات بين المفاهيم والمصطلحات في ثلاث 
معاملات بولينية يتم توظيفها للتعبير عن كل العلاقات والربط بين المفاهيم التي 
يتضمنها الاستفسار. من ثم يمكن القول إنه بصفة عامة كلما كانت العبارة البحثية 
معقدة» أدى ذلك إلى صعوبة تفسيرها وتمثيلها من خلال العلاقات البولينية» وذلك 
بسبب محدودية النموذج البوليني في التعبير عن العلاقات التي تخرج عن نطاق تلك 
العلاقات البولينية الثلاث. 


ثالثاً: عدم القدرة على وزن المصطلحات 


من القيود التي يفرضها النموذج البوليني في البحث والاسترجاع أنه لا يتيح 
تمكن المستفيد من تحديد الأهمية النسبية للمفاهيم والمصطلحات التي يتضمنها 
الاستفسار» حيث يفترض النموذج البوليني أن كل المفاهيم أو المصطلحات الواردة في 
الاستفسار لها نفس الأهمية النسبية» وهو بالطبع أمر غير صحيح في معظم الأحيان. 
فعلى سبيل المثال» نفترض أن المستفيد يبحث عن موضوع إتاحة المعلومات والأمن 
Information Access AND Security‏ وأن المستفيد يرغب فى التركيز بصورة أكبر 
على موضوع الأمن» أو بعبارة أخرى أن المستفيد يرغب في الحصول على معلومات 
عن معالجة قضية الأمن في إتاحة المعلومات وليس معالجة الموضوعين بنفس 
الدرجة من الأهمية. فوفقاً للنموذج البوليني في استرجاع المعلومات لن تتحقق 


رابعاً: القصور في التعبير عن الصلاحية وترتيب النتائج 
النموذج البوليني المواد إلى فتتين أساسيتين عند الاستر جاع هما: 
- صالحة: أي يوجد مضاهاة تامة بين استفسار المستفيد وبديل الوثيقة (التسجيلة 
الببليوجرافية). 
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- غير صالحة: بمعنى عدم وجود مضاهاة بين استفسار المستفيد وبديل الوثيقة. 


ot‏ فإن النموذج البوليني لا يتيح آلية لترتيب النتائج» ما يمكن المستفيد من 
تحديد أفضل 15 وثيقة مثلاً ضمن المواد المسترجعة مع ترتيبها Lady‏ للأهمية النسبية. 
بالتالي يضطر المستفيد إلى فحص كل النتائج بنفس ترتيب استرجاعها والتي عادة 
ما تصل إلى بضعة آلاف. وتجدر الإشارة إلى أنه dole‏ ما يكون بعيدا عن الترتيب 
وفقاً للصلاحية النسبية ويستخدم نماذج عامة للفرز مشل الترتيب الهجائي أو الزمني. 
بالتالي لا يستطيع المستفيد التحكم في حجم المواد التي يفحصهاوفقا لمستوى 
الأهمية مقارنة بعدد النتائج المسترجعة. 


خامساً: الصفرية في مقابل الفيضان 


قديحصل المستفيدون على نتائج صفرية Null Output‏ أو فيضان من النتائج 
Output Overload‏ عند إجراء البحث البولينى. وعادة ما تظهر النتائج الصفرية 
Late‏ بكرن الاستفسار مقيدا بدرجة كيبرة. ويحدث ذلك عند الربط بين عدد من 
المصطلحات باستخدام steal‏ بم ومن ناحية أخرى يحدث فيضا النتائج 
عندما يكون الاستفسار Lole‏ وواسعا بدرجة كبيرة. عادة ما يحدث فيضان النتائج 
عندما يتم الربط بين المصطلحات باستخدام المعامل OR‏ ويمكن للمستفيد في هذه 
الحالات أن يقوم بتعديل الاستفسار لزيادة أو تقليل عدد النتائج المسترجعة. إلا أن 
ذلك قد يؤدي إلى أن تكون النتائج المسترجعة غير مطابقة لما يبحث عنه المستفيد 
من البداية» وتقتصر فقط على نتائج الاستفسار المعدل. 

وللتغلب على المشكلات والقيود التي يفرضها النموذج البوليني» اقترح كوبر 
(Cooper, 1988)‏ بعض الحلول الممكنة J‏ 

- إعداد استفسارات حرة خالية من المعاملات البولينية للتخلص من عيوب 


الاستفسارات البولينية. ومن الآليات المميزة لهذا المقترح تطبيق بعض 
الأنظمة لنماذج البحث «Search Forms‏ ولم يحظ هذا المقترح بالقبول 
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- كماتم تطوير عدد من الخوارزميات والنماذج الجديدة لاسترجاع المعلومات 
لتيسير عمليات ترتيب النتائج ووزن المصطلحات.. الخ. وعلى الرغم من 
كفاءة هذه النماذج من الناحية النظرية إلا أنها لم تحقق نجاحاً Ub els‏ عند 
تطبيقها في أنظمة استرجاع المعلومات البولينية )63 .م ,1997 .(Korfhage,‏ 


> 9.3 نموذج الفراغ الاتجاهي 
Vector Space Model‏ 

يعد مجال الفراغ الاتجاهي أحد فروع علم الهندسة الفراغية والذي تم تطبيقه 
بكثافة في الجبر الخطي. ويشير إلى مجموعة من الأسهم التي يتم تجميعها لتكون 
فراغاً بحيث يمكن جمعها مع بعضها بعضاً وضربها بأعداد في هذا الفراغ . فعندما يتم 
تطبيق عمليات الجمع والضرب القياسي وبعض العمليات الأخرى على المتجهات 
(الأسهم) فإننا نصل لوصف كائن رياضي يطلق عليه فضاء اتجاهي. 

يوضح المثال السابق نموذجاً لمعالجة مفهوم الفراغ الاتجاهي؛ فإذا كان لدينا 
ثلاثة أسهم يطلق عليها متجهات تم تجميعها كما في الشكلء فإنه يمكن جمع 
وضرب الأسهم (المتجهات) في كميات قياسية للسهم انون الأزرق) Pr‏ 
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شكل (9/1) نموذج لتوزيع الموجهات في الفضاء الاتجاهي 
وطريقة قياسه )1997 (Sparck Jones & Willet,‏ 
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إلى السهم W‏ (باللون الأحمرء في أعلى الشكل)» وفي أسفله ۷ ضربت في معامل 
مساو ل 2.ماأعطى المجموع 2*0 V+‏ 

وقدتم تطوير نموذج الفراغ الاتجاهي والذي يطلق عليه أيضاً معالجة المتجهات 
Vector Processing‏ أو ناتج استر جاع المتجهات Vector Product Retreival‏ على يد 
سالتون وزملائه Salton, et. al‏ الذين قاموا ببناء نظام معالجة واسترجاع النصوص 
«System for the Manipulation and Retrieval of Texts (SMART)‏ الذي تم 
توظيفه في سلسلة من بحوث وتجارب استرجاع المعلومات )1968 Salton,‏ وفي 
إطار عمليات تطبيق نظام SMART‏ في بحوث ودراسات استرجاع المعلومات تم 
تطوير مجموعة من الآليات الجديدة في مجال استرجاع المعلومات في ذلك الوقت 
منها: وزن المصطلحات Term Weighting‏ والمخرجات المرتبة -Ranked Output‏ 


ويعد نموذج الفراغ الاتجاهي النموذج الثاني من حيث أقدمية التطبيق ومن حيث 
الأهمية بعد النموذج البوليني في رحلة تطوير نماذج استرجاع المعلومات التي تعمل 
في البيئات التشغيلية )1997 -(Sparck Jones & Willet,‏ 

ويتم التعبير عن كل مصطلح في نموذج الفراغ الاتجاهي على أنه بعد «Dimension‏ 
وعن الاستفسار على أنه متجه أو سهم Vector‏ ويتكون المُتجه من قيم أو درجات تعبر 
عن مجموعة المصطلحات المستخدمة فى تمثيل الاستفسار أو الوثيقة» ويمكن أن تكون 
تلك القيم ثنائية Binary‏ أو موزونة Weighted‏ في حالة القيم الثنائية يستخدم المعاملان 
(0.1) لتمثيل مدى ظهور المصطلح في المادة» وفي حالة القيم الموزونة تستخدم أرقام 
موجبة مثل (1.5, 0.3, 2.4, (ete..5.9‏ وتشير القيم الموزونة التي تستخدم للمصطلحات 
في الدلالة على الأهمية النسبية للمصطلح في تمثيل المادة )2007 Kowalski,‏ وقد 
حدد كروفهاج )1997 (Korfahge,‏ طريقتين لوزن المصطلحات هما: 

e‏ خوارزميات موضوعية Objective‏ لوزن المصطلحات مثل تردد المصطلحات 

أو حجم الوثيقة. 


ء خوارزميات غير موضوعية Subjective‏ مثل استخدام أحكام المستفيدين 
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User Preception‏ وقد سبق مناقشة العديد من طرق وزن المصطلحات والتي 
تعد قابلة للتطبيق من الناحية النظرية في نموذج الفراغ الاتجاهي. 

٠‏ وتتميز كل خوارزمية من خوارزميات وزن المصطلحات بمجموعة من المزايا 
كما أن لكل منها عيوبها ومشكلاتها. وقد ناقش كورفهاج )1997 (Korfahge,‏ 
بالتفصيل طرق التمثيل في كل من النوعين السابقين ومزايا وعيوب كل منهما 
عند تطبيقهما في تخصيص ووزن المصطلحات في المُتجه. 

ويتم التعبير عن العلاقة في نموذج الفضاء الاتجاهي بأنه عبارة عن عدد الأبعاد 

Number of Dimension‏ فى الاستفسار أو الوثيقة والتى تعادل عدد المصطلحات 
gb deter well‏ تل المادة. وتتكوت كل المتجهات (ne)‏ بالانكتسارات أو 
GU‏ من فضاء متعدد الاتجاهات. ويتم وصف موضع الاستفسار أو الوثيقة التي 
تمثله في الفضاء من خلال قياس إجمالي حزمة القيم المستخدمة في الدلالة على 
المصطلحات في المتجه أو السهم )1997 .(Sparck Jones & Willett,‏ 


ويتم تمثيل عملية إجراء البحث في نظم استرجاع المعلومات التي تعتمد على 
نموذج الفراغ الاتجاهي من خلال فحص المسافة» والتي تظهر في صورة متجه 
(سهم)» بين مُتجه الاستفسار والوثيقة في الفراغ الاتجاهي. ويتم في هذا النظام 
الحكم على درجة التشابه بين أي وثيقتين في النظام من خلال مقارنة درجة الأبعاد 
الممثلة ومن خلال حساب مقياس التشابه على أنه معامل التشابه أو الارتباط Cosine‏ 
Coefficient‏ فإذا كان الاستفسار والوثيقة يعبران عن مفهوم متشابه فإن الزاوية التي 
بين الأسهم أو المتجهات تكون صغيرة» أما إذا LIS‏ يتناولان مفهومين مختلفين فإن 
الزاوية بين الأسهم أو المتجهات تكون كبيرة )1997 Lesk,‏ من ثم يمكن بنفس 
الطريقة قياس التشابه بين الوثائق. 


أوضح سبارك جونز وويليت )1997 (Sparck Jones & Willett,‏ المزايا التي 
يتمتع بها نموذج الفراغ الاتجاهي» وأنه يتيح لأنظمة استرجاع المعلومات أساساً 
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igs‏ لعمليات التكشيف وتوظيف الصلاحية المرتدة Relevance Feedback‏ وتصنيف 
الوثائق. فعند المقارنة بين نموذج الفراغ الاتجاهي والنموذج البوليني تتضح مزايا 
مناقشاتها في نموذج المنطق البولينى. ويمكن إجمال هذه المزايا فيما يلى: 


shal: Voi‏ البحث 


لم يعد المستفيد بحاجة إلى فهم وتطبيق المعاملات البولينية المعقدة والتي تسبب 
له إرباكاً في كثير من الأحيان» عند إجراء البحث في نظم استرجاع المعلومات التي 
تعتمد على نموذج الفراغ الاتجاهي. فكل ما يحتاج إليه المستفيد عند التعامل مع 
نموذج الفراغ الاتجاهي هو اختيار مجموعة المصطلحات التي تلائم احتياجاته 
ثانياً: وزن المصطلحات 


يتيح نموذج الفراغ الاتجاهي إمكانية وزن المصطلحات التي تعبر عن المفاهيم 
والمصطلحات التى تمثل الاستفسارات والوثائق» ما يساعد على تحديد الأهمية النسبية 
pave‏ في الفراغ الى ر اسه لى سول الخال كان ى الفا امار 
عن أمن الشبكات Networks Security‏ فإنه يستطيع أن يخصص ET‏ أكبر للمصطلح 
أمن Security‏ عن المصطلح شبكات Networks‏ بالتالي لا تتم معالجة المصطلحين 
بالدرجة نفسها من الأهمية عند التكشيف والاسترجاع. من ثم فنموذج الفراغ الاتجاهي 
يتيح إمكانية تخصيص وزن للمصطلحات ما يساعد على تمثيل الاستفسار أو الوثيقة 
بدقة أكبر من حيث الأهمية النسبية للمعالجة التي يتناولها أي منهما. 

يتيح نموذج الفراغ الاتجاهي إمكانية ترتيب نتائج البحث ترتيباً تنازلياً وفقاً لصلاحية 
تلك النتائج لاستفسار المستفيد بحيث تأتي الوثائق الأكثر صلاحية على قمة قائمة 


النتائج المسترجعة. ويعبر النموذج عن درجة التشابه Simialrity Score‏ بين الوثائق 
والاستفسارات باستخدام مقياس درجات Scale‏ من (0 إلى 1)» حيث تحصل الوثائق 
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الصالحة كلياً على درجة (1) ثم تحصل الوثائق الأقل صلاحية نسبياً على درجات 
9, 0.8, 0.7.. إلخ Lady‏ لمستوى صلاحية تلك الوثائق ودرجة تشابها مع الاستفسار. 
من ثم يمكن القول إنه في حين أن النموذج البوليني يستخدم مقياس صلاحية ثنائيا 
(صالحة أو غير صالحة) ما يعوق عمليات الترتيب والفرز وفقا للصلاحية» فإن نموذج 
الفراغ الاتجاهي يتيح إمكانية ترتيب الوثائق بناء على درجة مقياس التشابه. بالتالي 
يتمكن المستفيد من تحديد الحد الأقصى من الوثائق التي يرغب في فحصها والاطلاع 
عليها من قائمة النتائج المسترجعة؛ بحيث يختار أفضل 10 وثائق وفقاً للترتيب والأهمية 
النسبية ويكون على يقين أن الوثائق الأخرى التي لم يفحصها هي أقل في الصلاحية من 
المجموعة التي قام بفحصها. وتجدر الإشارة إلى أن إمكانية تحديد عدد الوثائق التي 
يتم فحصها من مجموعة النتائج المسترجعة يعد تطورا مهما لخدمة المستفيدين من 
نظم استرجاع المعلومات التي تعتمد على هذا النموذج» حيث توفر تلك الميزة وقت 
وجهد المستفيد نظراً لأنه لن يحتاج إلى استعراض وفحص كل الوثائق المسترجعة» 
كما هي الحال في النموذج البوليني» مع العلم أن عدد النتائج المسترجعة قد يصل إلى 
آلاف وأحياناً مئات الآلاف من الوثائق ما يتعذر معه فحصها بالكامل. 


رابعاً: التغذية الراجعة للصلاحية Relevance Feedback‏ 


يعتمد نموذج الفراغ الاتجاهي على تطبيق bee‏ صلاحية التغذية الراجعة في تحسين 
أداء es aaa ed‏ فبناء على صلاحية النتائج التي تم استرجاعها وعرضها 
مسبقاء يقوم النظام بتخزين ردود أفعال المستفيدين عند التعامل مع نتائج البحث» 
أداء الاسترجاع وعرض نتائج أكثر صلاحية بناء على تعاملات المستفيدين مع النظام. 
وتتم عمليات تخزين نتائج التغذية الراجعة للصلاحية دون تدخل من جانب المستفيد» 
وتتكرر تلك العملية أي عدد من المرات دون حد أدنى أو حد أقصى. وتظهر تلك 
الخاصية أو الميزة بوضوح في نظم استرجاع الإنترنت (محركات البحث) في خاصية 
نتائج مشابهة .More Like This and More Similar Results‏ 


ويتضح من العرض السابق أن نموذج الفضاء الاتجاهي يتميز بمجموعة من 
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الملامح ونقاط القوة التي تساعد في التغلب على مشكلات النموذج البوليني إلا 
أن هذا النموذج لا يخلو أيضاً من بعض المشكلات التي تواجه أنظمة استرجاع 
المعلومات عند تطبيقه. 


> 9.3.2 عيوب نموذج الفضاء الاتجاهى 
يعتمد نموذج الفضاء الاتجاهي على مبداً أساسي في بنائه هو إمكانية وزن 
المصطلحات من خلال حساب قيمتها في فضاء المصطلحات المستخدمة في 
النظام» ورغم جدارة هذا المبداً والمزايا المتعددة التي يتمتع بهاء إلا أنه أدى إلى 
أولاً: افتراض استقلالية المصطلحات 


يفترض نموذج الفضاء الاتجاهي أن المصطلحات التي يتم اختيارها في عمليات 
التمثيل مستقلة عن بعضها البعض» وهذه الفرضية تعد من أهم عيوب هذا النموذج. 
فقد سبقت الإشارة إلى أن من أهم عيوب النموذج البوليني أنه لا يستطيع التعبير 
عن العلاقات خارج نطاق العلاقات البولينية. وقد كان من المتوقع أن يقوم نموذج 
الفضاء الاتجاهى بتوفير آليات أفضل للتعبير عن العلاقات» إلا أن الحقيقة أن هذا 
Veh pall‏ يقير أى idl‏ للتعبير عن العلاقات بين المصطلحات Le‏ فيها العلاقات 
البولينية. وبدلا من حل مشكلة العلاقات القاصرة بالنموذج البوليني وضع Lind‏ 
أن المصطلحات التي يتم توظيفها باستفسارات المستفيدين لإجراء البحث بنظم 
استرجاع المعلومات التي تعتمد على نموذج الفضاء الاتجاهي مستقلة عن بعضها 
البعض ولا توجد علاقات تربط بينها. 

ومن الواضح أن هذه الفرضية غير دقيقة وتفرض قيوداً غير عملية أثناء عمليات 
التمثيل والبحث. فإذا افترضنا آنه تم اختيار المصطلحات Automobile, Export,‏ 
Import‏ لوصف متجه Vector‏ لوثيقة معينة» فهل يمكن افتراض أن هذه المصطلحات 
المستخدمة في تمثيل الوثيقة لا يوجد علاقات بينها. ولكن بالنظر إلى الواقع سنجد أن 
الوثيقة تتعامل مع Automobile Import, Automobile Export, Import and Export‏ 
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and Automibile‏ ويعد افتراض استقلالية المصطلحات من الأهم الانتقادات التي 
وجهت | نموذج الفضاء الاتجاهي. 
ثانياً: صعوبة تحديد المترادفات gi‏ علاقات | 
يا: صعوبة تحدي 9 : 


من التحديات التي تواجه المستفيد عند استخدام نموذج الفضاء الاتجاهي هو 
التعبير بوضوح عن المترادفات أو علاقات الجمل بعضها ببعض» وذلك بسبب غياب 
المعاملات البولينية وتجاور المصطلحات. وبناء على ذلك لا يمكن استخدام المعامل 
OR‏ لتحديد المترادفات مثل (Car OR Automobile)‏ كما أنه لا يمكن تطبيق المعامل 
1‰ لتكوين el Le‏ بحثية كما هي الحال في -Information With Retrieval‏ مع 
العلم أن في عمليات البحث الحقيقية يحتاج المستفيد إلى التعبير عن المترادفات 
أو العبارات عند تمثيل الاستفسارات أو الوثائق. لذلك نجد أنه من الصعب إجراء 
البحث من دون المعاملات البولينية ومعاملات التجاور في أنظمة استرجاع المعلومات 
التي تعتمد على نموذج الفضاء الاتجاهي عندما يكون هناك حاجة إلى استخدام 
المترادفات وعلاقات الجمل في التعبير عن محتوى الاستفسارات أو الوثائق. 


ثالثاً: عدم الموضوعية وتعقيد آليات الوزن 


تعثمد أنظمة استرجاع المعلومات التي تستخدم نموذج الفضاء الاتجاهي على آليات 
معقدة وغير موضوعية لوزن المصطلحات. وتظهر عدم الموضوعية في عمليات وزن 
المصطلحات عندما يطلب من المستفيد تخصيص وزن للمصطلحات وخاصة مصطلحات 
الاستفسار بناءً على رؤيته وأحكامه الشخصية. ويفترض هنا أن يقوم المستفيد بتقدير 
الأهمية النسبية للمصطلح الذي سوف يستخدمه وأن يحدد له وزنا نسبيا. بالتالي تظهر 
مشكلة عدم الموضوعية» حيث إن المستفيد في كثير من الأحيان يكون غير قادر على 
إعطاء وزن نسبي دقيق للمصطلح بالتالي تظهر مشكلة عدم الموضوعية. وعلى الجانب 
الآخر يتضح التعقيد في عمليات الوزن» حيث لا توجد خوارزمية خالية من العيوب 
وأوجه الانتقاد» كما أن الوصول إلى أفضل خوارزمية لبيئة استرجاع المعلومات يعد أمرا 
في غاية الصعوبة أن لم يكن مستحيلاً. فضلاً عن أن قواعد البيانات التي تبنيها أنظمة 
استرجاع المعلومات تتميز بالديناميكية الشديدة» حيث يتم تحديثها بصورة دائمة. بالتالي 
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فإن وزن المصطلحات لا بد أن يتغير ويتم تحديثه بصورة دائمة» لأن معاملات الوزن مثل 
تردد المصطلحات التي تطبقها خوارزميات الوزن تتغير مع تغير تركيبة قاعدة البيانات. 


وقدقدم كوالسكى )2007 (Kowalski,‏ عدداً من المسارات التى يمكن اتباعها 
لمعاجة قضية التغير الديناميكى بقواعد البيانات وتأثيره فى خوار زميات الوزن إلا أنه 
أشار إلى أن هذه المسارات سوف يكون لها تأثير واضح في عملية بناء وتطوير نظام 
استرجاع المعلومات من حيث التكلفة والوقت. 
بعض الصعوبات الأخرى مثل الحاجة إلى زيادة عدد المصطلحات المستخدمة 
في تمثيل الاستفسار حتى يتمكن المستفيد من صياغته بدقة» إلى جانب الحاجة 
إلى زيادة عد المصطلحات الستخدمة فى تمل الوثيقة أيضاء ذلك oe‏ يتمكن 
النظام من التمييز الدقيق وتحسين أداء الاسترجاع. وذلك مقارنة بالنموذج البوليني 
والربط بينها بالمعاملات البولينية. بالتالي ريبما يكون استخدام عدد من اثنين إلى 
UU‏ مصطلحات Labs late‏ للتعيير عن الامعنسار gf‏ تيل LAS I‏ والحصول على 
نتائج ذات جودة عالية .(Sparck Jones & Willett, 1997, p.259)‏ 

وتجدر الإشارة إلى أنه كلما زاد عدد المصطلحات التي يتم تعيينها للوثيقة 
أو الاستفسار ارتفعت التكلفة. كما أن هذا النموذج يفتقر إلى المبررات النظرية 
theoretical justification‏ في بعض جوانب معالجة المتجهات (الأسهم) بالنموذج. 
لاستخدامه كنموذج لاسترجاع المعلومات لم يتم وصفه أو تبريره نظرياء حيث ترك 
تبريره للمستفيد )1989 (Slaton,‏ 


الشكل المثالي لهذا النموذج» أنه يضع الوثائق التي بينها علاقة صلاحية لاستفسار 
صلاحية منفصلة ومتباعدة فى الفضاء )1975 Salton, Wnag, Wnag,‏ ومع ذلك 
فإن مضاهاة الاستفسار بمجموعة مترابطة من الوثائق» والتى يُطلق عليها مجموعة 
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الوثائق الافتراضية المجمعة Cluster Hypothetical Doucments‏ أمر لم يکن هن 
الممكن تحقيقه من دون تطبيقات هذا النموذج )1997 .(Sparck Jones & Willett,‏ 


وقد بدأ تطبيق نموذج الفضاء الاتجاهي مع ظهور أنظمة استرجاع المعلومات 
على الإنترنت» ولم يتم تطبيقه فعلياً في أي بيئة استرجاع معلومات حقيقية قبل ظهور 
أنظمة الاسترجاع في بيئة الويب» حيث اقتصر تطبيقه قبل تلك الأنظمة على التجارب 
المعملية التي تمت على نظام SMART‏ والذي ساعد على نمو ونضج هذا النموذج 
بصورة كبيرة» كما أن تطوير هذا النموذج ساعد على تطور البحوث والدراسات في 
مجال استرجاع المعلومات بصورة كبيرة. 


> 9.4 النموذج الاحتمالي 
Probablity Model‏ 


قام JS‏ من مارون وكوهنز )1960 (Maron & Kuhns,‏ بتطوير النموذج الاحتمالي 
لاسترجاع المعلومات في الستينيات من القرن الماضيء وقام كل من روبرتسون 
وسبازك بإجراء تطويرات إضافية على النموذج في السبعينيات )& Robertson‏ 
.(Sparck, 1976‏ وقد أوضح کل من سبارك وويليت Sparck Jones & Willett,)‏ 
OF (1997‏ الفكرة الأساسية التي يستند إليها النموذج الاحتمالي هي: 


«تحاول نظم استرجاع المعلومات التي تعتمد على اللغة الطبيعية» والتي مازالت بعيدة 
عن الدقة» تحقيق معادلة التحديد المؤكد للوثائق الصالحة لاستفسار معين» وحيث أن هذا 
الوضع مضاد تماماً لعمليات الاسترجاع التي تحتاج إلى إزالة جميع جوانب الغموض 
لتحقيق هذه المعادلة عند الببحث فى وقواعد البيانات الرقمية Sparck Jones & Willett,)‏ 
9 ,1997( بالتالي فإنه إذا تم تطبيق نظرية الاحتمالات والتي يكون فيها الحدث له 
احتمالات تتراوح بدرجة نسبية بين صفر إلى 316100 (Otol)‏ ( عند إجراء البحث). 


بالتالى فإن هذا النموذج يراعي عناصر عدم اليقين Uncertainity Elements‏ فى 


معالجة عملية استرجاع المعلومات والتي تتمثل في: ما مستوى صلاحية وثيقة معينة 
تم استرجاعها لاستفسار معين؟ )1985 .(Bookstein,‏ 
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ويحاول النموذج قياس مدى احتمال صلاحية وثيقة معينة لاستفسار معين 
باستخدام مجموعة من الطرق الإحصائية التي يمكن من خلالها قياس الاحتمالات. 
ويطلق على هذه العملية في سياق استرجاع المعلومات احتمال الصلاحية The‏ 
Probablity of Relevance‏ بين استفسار ووثيقة. 


وعلى خلاف غيره من نماذج استرجاع المعلومات فإن نموذج الاحتمالات لا 
يعالج الصلاحية على أنها مقياس مضاهاة أو عدم مضاهاة Miss- or- Match‏ بل يعبر 
بتحديد نسبة احتمال صلاحية وثيقة معية لاستفسار محدد» فيعرض Wes‏ أن الوثيقة D‏ 

يعتمد النموذج الاحتمالي على طرق متنوعة لقياس الاحتمالات ومستويات 
الوثيقة والاستفسار. وتعتمد أحكام التشابه على أساليب قياس لعل أبرزها معدل 
تردد الكلمات Term Frequency‏ وبصفة dole‏ يمكن القول إنه فى إطار هذا النموذج 
كلما ار فت فر الشابهديه hat ly Lad‏ ؤادت االات اا ا 
للاستفسار. ويتم في نظم استرجاع المعلومات التي تعتمد على النموذج الاحتمالي 
تحديد الوثائق التي يتم استرجاعها كنتائج للاستفسارات عندما تحقق تلك الوثائق 
فرضية أساسية تتمثل فى أن تكون درجة احتمال تشابه تلك الوثائق أعلى من حد 
معين Specific Threshold‏ فى مستوى الصلاحية )1997 .(Korfhage,‏ 


> 9.4.1 مزايا النموذج الاحتمالي 


بالمقارنة بالنموذجين السابقين» البوليني والفراغ الاتجاهي» يتميز النموذج 
الاحتمالى بالمزايا الثالية: 

أولاً: يوفر الودج الاحمالي الأساس النظري للنمارسات العى كم E‏ سا 
على أساس تجريبى مثل آليات وزن المصطلحات إلى جانب الإرشادات والإجراءات 
اللازمة لتطبيقها في عمليات استرجاع المعلومات (-348 Salton, 1989, pp.‏ 


الفصل التاسع 


349( فعادة ما توصف عمليات استر جاع المعلومات OL‏ لها مستويات عدم يقين 
Uncertainity‏ متنوعة عند الحكم على علاقة الصلاحية بين الوثائق والاستفسارات» 
من ثم فإن استخدام مبدأ أحتمالات الصلاحية النسبية هو أكثر واقعية في التعبير 
عن صلاحية الوثائق ولیس الصلاحية الثابته» إضافة إلى ذلك فإن العمليات الرئيسة 
الخاصة بهذا النموذج مثل قياس التشابه بين الوثيقة والاستفسار يتم تحديدهامن 
خلال النموذج نفسه oe Va‏ استخدام الأحكام الاعتباطية «Herusitic Judegments‏ 
كما هو الحال في نموذج الفراغ الاتجاهي. 

ثانياً: يفسر النموذج الاحتمالي مبدأ الاستقلالية في علاقات المصطلحات بالوثائق 
مثل علاقة ظهور وثيقة في عملية استرجاع المعلومات وتأثيره في ظهور وثيقة أخرى. 
حيث لم يعد المستفيدون بحاجة إلى افتراض الاستقلالية بين المصطلحات والذي 
يعد افتراضاً غير واقعي عند التطبيق كما هي الحال في نموذج الفراغ الاتجاهي. كما 
أن النموذج يوفر آليات لوزن المصطلحات وتحديد درجة التشابه النسبي بين الوثائق 
والاستفسارات ويمكع المستقيد أيضنا من Lett‏ الوثافق الأكثر صلاحية. 


ويتيح النموذج إمكانيات ترتيب النتائج المسترجعة وفقاً لصلاحيتها النسبية» حيث 
يفترض النموذج أن الوظيفة الأساسية لنظام استرجاع المعلومات هي مضاهاة الوثائق 
وتحديد درجة صلاحيتها من ثم ترتيبها ترتيبا تنازليا وفقا لاحتمالات الصلاحية 
المرتبطة باحتياجات المستفيدين )1997 (Sparck Jones & Willett,‏ ويطلق على 
هذا الافتراض مبدأً الترتيب الاحتمالى .Probablity Ranking Pribciple‏ ويساعد مبداً 
لوقت clase Wl‏ على bp Koel gps E‏ الى Lode‏ قن retell ae‏ 
المسترجعة من خلال التعبير عن الوزن والترتيب بصيغ احتمالية. 

ثالثاً: استخدام معلومات التغذية الراجعة Relevance Feedback‏ في تطوير طرق 
استرجاع أكثر كفاءة )2007 (Kowalski,‏ هذا إلى جانب قدرته على تحديد مواطن 
الضعف فيه بسهولة والعمل على تقويتها والتغلب عليها. يتميز النموذج الاحتمالي 
بإمكانية الطوير والتحسين الذاتي والذي يعد أحد أهم عناصر القوة في هذا النموذج. 


رابعاً: النموذج الاحتمالي في شكله الأساسي لا يطبق المنطق البوليني الذي 
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يرى كثير من المستفيدين أنه آلية بحث صعبة التطبيق. مما يجعل من نظم استرجاع 
المعلومات التي تعتمد على النموذج الاحتمالي أكثر صداقة للمستفيد User Friendly‏ 
من نظم استرجاع المعلومات التي تطبق المنطق البوليني. 


> 9.4.2 عيوب النموذج الاحتمالي 


تم تحديد عيوب النموذج الاحتمالي من أوجه متعددة منذ نشأته وعلى مر مراحل 
hale‏ موك تقيض ap dle‏ قن اا 


أولاً: الصلاحية الثنائية 


على الرغم أن الصلاحية في النموذج الاحتمالي هي عبارة عن قيم متصلة تتراوح 

بين صفر وواحد» وليست قيما ثنائية صفر أو واحد» كما هي الحال في النموذج 

البوليني» فإن النموذج الاحتمالي يفترض أن الصلاحية لها قيم ثنائية وهي كالتالي: 
Pr (nonrel) = Pr (rel)‏ 


وتشير المعادلة إلى أن احتمال الصلاحية Pr (rel)‏ تساوي احتمال ete‏ الصلاحية Pr (nonrel)‏ 


بمعنى آخرء أن قيم احتمال عدم الصلاحية ثابتة بمجرد حساب احتمال الصلاحية» 
أو الوثيقة لديها فرصتان هما أن تكون ضمن المجموعة الصالحة أو أن تكون ضمن 
المجموعة غير الصالحة. وذلك يلغي مبدأ عدم اليقين في عملية استرجاع المعلومات. 
وقد أوضح روبرتسون )1976 (Robertoson,‏ أن القيم الثنائية لها مزايا متعددة, ألا 
أنها بالتأكيد ليست دقيقة بشكل عام أو كل الحالات. 

ثانياً:.تحسين نتائج الاسترجاع 

لم تظهر فروق كبيرة في مستوى جودة النتائج المسترجعة من خلال النموذج 
الاحتمالي » حيث لم يستطع تحسين كفاءة الاسترجاع بدرجة ملحوظة. فالنتائج 
التي يتم الحصول Lede‏ من النموذج الاحتمالي رغم جودة عرضهاء إلا أنها ليست 
أفضل من نتائج الاسترجاع في كل من النموذج البوليني ونموذج الفراغ الاتجاهي. 


الفصل التاسع 


وهنا يظهر سؤال مهم هو: هل هناك حاجة إلى نماذج استرجاع معلومات جديدة في 
الوقت الذي تعمل فيه النماذج الحالية بدرجات متكافئة إلى حد كبير؟ 


وإلى جانب العيبين السابقين توجد بعض الأمور التي تحد من تطبيق هذا النموذج منها: 

صعوبة التطبيق: وترجع صعوبة التطبيق إلى أنه نموذج معقد حسابياً ويتطلب 
a c‏ ات > dl‏ م LBS ae‏ مما يجعل فهمه نظرياً يحتاج إلى تطبيق آليات حسابية 
متنوعة تعتمد على نظرية الاحتمالات. 


التنوع: يوجد للنموذج الاحتمالي أشكال متنوعة في المعالجات الحسابية ولا 


يوجد اتفاق بين المتخصصين على الطريقة المثلى للمعالجة الرياضية بين المهتمين 
به على الرغم من الاتفاق حول المبادئ الرئيسة للنموذج )1985 .(Bookstein,‏ 


ندرة التطبيقات: كما هي الحال في نموذج الفراغ الاتجاهي فإن النموذج 
الاحتمالي لم يكن له تطبيقات حقيقية حتى ظهور نظم استرجاع المعلومات من 
الإنترنت» حيث اقتصر قبل ظهور تلك النظم على التجارب في البيئات المعملية. 


> 9.5 التوسع في طرق استرجاع المعلومات 


وضعت النماذج الثلاثة (البوليني والفراغ الاتجاهي والاحتمالي) التي تمت مناقشتها 
في هذا الفصل المنهجيات والقواعد الأساسية لاسترجاع المعلومات. ونتيجة BY‏ تلك 
النماذج في البحث والتطبيق تم تطوير مجموعة من النماذج الجديدة التي توسعت للنماذج 
اللائة السابقة. تعلى سبيل المقال تم تطرير التموذج البوليدي الموسع كامتداد لكل سن 
النموذج البوليني ونموذج الفراغ الاتجاهي. كما تم وضع نموذج المجموعة الغامضة 
Fuzzy Set‏ بالاعتماد على النموذج البوليني في بنيته الأساسية وباستخدام نظرية المجموعة 
The Set Theory‏ وتطبيقها لأول مرة في مجال استرجاع المعلومات. كما أن نموذج AAS‏ 
الدلالات الكامنة Latent Semantic Indexing‏ مشتق من نموذج الفراغ الاتجاهي» كما تم 
تطوير نموذج شبكة الاستد لال Inference Network‏ بالاعتماد على التوسع في النموذج 
الاحتمالي وآليات ترتيب النتائج ترتيبا احتماليا تنازليا بحيث تلبي احتياجات المستفيدين 
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بدلا من احتمالية صلاحيتها لاحتياجاته والذي يعد أساس النموذج الاحتمالي Sparck)‏ 
.(Jones & Willett, 1997‏ ويمكن التعرف إلى تفاصيل كاملة عن التوسعات التي جرت 
لنماذج استرجاع المعلومات فى التقسيم Sal‏ لنظم استرجاع المعلومات الذي قدمه 
(Baez - Yates & Ribeiro - Neto, 1999)‏ وسوف تتم فيما يلي مناقشة اثنين من هذه 


> 9.5.1 النموذج البوليني الموسع 


Extended Boolean Model 


سبقت الإشارة إلى أن من أهم عيوب النموذج البوليني عدم القدرة على O59‏ 
المصطلحات» كما أن من عيوب نموذج الفراغ الاتجاهي عام توافر آلية للتعبير 
عن العلاقات البولينية: Cs‏ على غاتين المشكلتين oS‏ تحدان من إمكانينات 
النموذجين تم تطوير النموذج البوليني الموسع لكي يوفر إمكانات لوزن المصطلحات 
والتعبير عن العلاقات البولينية» والذي يعد دمجا بين مزايا النموذجين Les‏ وتجدر 
الإشارة إلى أن العديد من الباحثين قاموا بالعديد من المحاولات لبناء هذا النموذج 
ومنهم بوكستين )1978 (Bookstein,‏ ويعد هارى أوو (Harry WU)‏ أول من قدم 
مفهوم النموذج البوليني الموسع في رسالته للدكتورة التي كانت تحت اشراف 
جيرارد سالتون (Gerard Salton)‏ وقد استعرض فيها آليات عمل هذا النموذج 
والخوارزميات المقترحة لتنفيذه )1983 (Salton, Fox, & WU, 1983; WU,‏ 


ويتم في النموذج الموسع تخصيص وزن للمصطلحات باستخدام مزيج من 
المعاملات التالية: 

Proximity التقارب‎ - 

Location الموقع‎ 5 

Frequency التردد‎ - 


Precieved Relevance الصلاحية المتوقعة‎ - 


الفصل التاسع 


ويمكن من خلال هذا النموذج ترتيب النتائج بالاعتماد على إمكانات الوزن 
النسبي من ثم يمكن التحكم في عدد الوثائق التي يتم استرجاعها لكل استفسار. 
يضاف إلى ذلك المحافظة على إمكانات بناء العلاقات البولينية بين المصطلحات. 
وعلى الرغم من مزاياه السابقة إلا أن النموذج الوليني لم يتم تطبيقه بتوسع في أنظمة 
استرجاع المعلومات المستخدمة بقواعد البيانات الببليوجرافية للأسباب التالية: 


أولاً: صعوبة تعيين وزن للمصطلحات بكفاءة ودقة بسبب العيوب نفسها التي تم 
ذكرها في نموذج الفراغ الاتجاهي. 

ثانياً: فشل النموذج في استرجاع العدد نفسه من النتائج مع الاستفسارات المتساوية 
من ناحية بنية العلاقات البولينية عند تخصيص أوزان مختلفة لمصطلحات الاستفسار 
.(Korfahge, 1997)‏ فمن الطبيعي أن يتم استرجاع عدد أكبر من الوثائق للمصطلحات 
التي لها وزن نسبي مرتفع والذي يراه البعض نتيجة غير منطقية حيث إن عدد الوثائق 
الصالحة ثابت ويجب ألا يتغير وما يتغير هو ترتيبها وفقاً للوزن النسبي للمصطلحات. 
الفراغ الاتجاهمى فساعد العديد من محركات البحث على الاستفادة من مزايا 


> 9.5.2 نموذج المجموعة الضبابية 
Fuzzy Set Model‏ 
يعد الأذربيجاني لطفي زاده أول من قدم هذا النموذج في مجال استرجاع 
المعلومات في عام 1965 )1965 (Zadeh,‏ بغرض التغلب على عيوب النموذج 
البوليني من خلال استخدام آليات التعبير عن الصلاحية الجزئية Partial Relevancy‏ 
لنتائج البحث وذلك من خلال تطبيق مبادئ نظرية المجموعة Set Theroy‏ 


في هذه النظرية يتم التعبير عن المادة على أنها Lo]‏ ضمن مجموعة أو ليست ضمن 
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مجموعة» كما أن الوثيقة إما أن تكون صالحة أو غير صالحة لاستفسار معين» كما هي 
الحال في النموذج البوليني. ويساعد ذلك على وضع حدود فاصلة بين أعضاء المجموعة 
وغير الأعضاء بالمجموعة أو الوثائق الصالحة والوثائق غير الصالحة. إلا أن هذا الخط 
الحاد الفاصل بين الوثائق الصاحة وغير الصالحة غير موجود فعلياً في مجال استرجاع 
المعلومات» نظرا لأن الأنظمة وغالبا المستفيدين لا يمكتهما بدقة تحديد ما إذا كانت 
الوثيقة صالحة لاستفسار معين أم .(Korfahge, 1997) Y‏ لذلك تعد الصلاحية الجزئية 
انعكاساً أو تعبيراً أكثر دقة للتغلب على هذه المشكلة وإصدار أحكام واقعية. 


وقد أطلق على الصلاحية الجزئية التي تم تطبيقها لتحسين إمكانيات النموذج 
البوليني نظرية المجموعة الضبابية. ويفترض هذا النموذج أن الوثائق والاستفسارات 
الضبابية هي الأساس في استرجاع المعلومات لذلك لا بد من وضع آلية لإصدار 
أحكام ضبابية بشأنها. ويعتمد هذا النموذج على تحديد مدى عضوية المادة ضمن 
المجموعة في مدى بين الدرجتين صفر إلى واحد» حيث يشير واحد إلى العضوية 
الكاملا all Wy T Mise teas E‏ ا اا ال 
التي تفصل بين الأعضاء وغير الأعضاء تصبح ضبابية ويحددها مستوى ودرجة 


العلاقة داخل المجموعة. 


الأولى: تطبيق الطريقة التقليدية والتي يتم فيها تحديد مجموعة الطلبة الأوئل 
الذين حصلوا على أعلى متوسط درجات من بين المجموعة الكاملة» فمثلاً يتم 
تحديد الطلاب الذي حصلوا على متوسط أعلى من 3.9 كمتوسط درجات» وأي 
طالب يحقق هذه الدرجة يدخل ضمن مجموعة المكرمين» في حين أن أي طالب 
يحصل على درجة أقل من 3.9 فلن يكون ضمن مجموعة المكرمين. ذلك على 
الرغم أن بعض الطلاب قد حصلوا على متوسط درجات 3.89 والفرق بينهم وبين 
المجموعة الأولى غير ملحوظ. 


الثانية: تعتمد على تحديد طلاب المجموعة على أساس الدرجة التي يحصلون 


الفصل التاسع 


عليهاء فالطلبة الذين يحصلون على درجة 3.9 أو أكثر مثلاً يحصلون على عضوية 
كاملة تعادل الدرجة )1 0.9( بينما يحظى الطلبة الذين يحصلون على درجة أقل 
من 3.5 - 3.9 بعضوية جزئية» والمجموعة التي تحصل على درجة أقل من 3.5 
على عضوية قريبة من الصفرء من ثم يتحدد مستوى العضوية بناء على مدى قربه 
أو بعده من الدرجة 1.0» بحيث يحظى الطالب الذي حصل على درجة 3.8 مثلاً 
بعضوية تعادل 0.8 بالتالى ويستبعد الطلبة الذين حصلوا على عضوية أقل من 3.5 
وكا السكرى القت دة لبد ا 

وعند تطبيق نظرية المجموعة الضبابية في استرجاع المعلومات فإن حكم الصلاحية 
على الوثيقة لا يعتمد على مقياس ثنائي بأن الوثيقة صالحة أو غير صالحة» كما هي 
الحال في النموذج البوليني. فبدلاً من تطبيق مقياس ثنائي يتم تطبيق مستوى عضوية 
لمجموعة الوثائق على أساس مدى قرب الوثيقة من مستوى الصلاحية. ويتم تحديد 
مستوى صلاحية الوثيقة بالمجموعة الضباية أثناء عملية التكشيف )1985 .(Bookstein,‏ 


ومن أهم مزايا نموذج المجموعة الضبابية أنه يتيح إمكانية تحديد مستويات صلاحية 
للوثائق» بحيث يتيح الوصول إلى الوثائق ذات الصلاحية الجزئية» مما يتيح للنموذج 
ترتيب النتائج ترتيباً تنازلياً وفقاً لمدى عضويتها بالمجموعة» ومستوى صلاحيتها. 
بالتالي يتمكن المستفيد من اختيار وعرض التتائج SY‏ صلاحية والتي تظهر في 
قمة قائمة النتائج. إضافة إلى ذلك يحافظ هذا النموذج على إمكانية بناء العلاقات 
البولينية بين المصطلحات. بالتالي تتميز نظم استرجاع المعلومات التي تطبق نموذج 
المجموعة الضبابية بإمكانيات الاسترجاع الاكتشافي -Discovery Retrieval‏ 


ومع ذلك لايتيح نموذج المجموعة الضبابية المرونة الكافية التي تسمح بتعيين 
وزن لمصطلحات الاستفسار فى مقابل مصطلحات الوثيقة» حيث تعتمد درجة 
i yall ple LED I ple ol‏ اي تحمل de GAS LT Lge‏ ولا ele‏ 
مصطلحات الاستفسار )1989 (Salton,‏ وتتضح عدم المرونة في نموذج المجموعة 
الضبابية عند التعامل مع العلاقات البولينية وعدم وزن مصطلحات الاستفسار عند 
تطبيق المعامل OR‏ للتعبير عن العلاقة بين ثلاثة مصطلحات © (A OR B OR‏ 
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فالنموذج في هذه الحالة سوف يسترجع الوثائق DI, D2‏ الخ» ويعطي الوثيقة 51 
التي تشتمل على المصطلح A‏ فقط الدرجة نفسها التي تحصل عليها الوثيقة D2‏ التي 
forts‏ على المصطلحات الثلاثة © A OR B OR‏ وذلك لعدم قدرة النموذج على 
وزن مصطلحات الاستفسار. ومن الواضح في هذه الحالة أن درجة صلاحية الوثيقة 
1 تم الحكم عليها من مصطلح واحد فقط هو المصطلح A‏ كنتيجة لحقيقة أن 
مصطلحات الاستفسار Y‏ يتم وزنها في هذا النموذج. 

كذلك الحال عند تطبيق المعامل (AND‏ فعند البحث عن المصطلحات A AND)‏ 
(BAND c‏ فإن الوثيقة 21 التى تشتمل على المصطلحين 8 AND‏ ۸ لن يسترجعها 
النظام GY‏ سيعتبرها وثيقة غير صالحة Led SUIS‏ بالنسبة للوقيقة 52 العي تشغمل 
على المصطلح A‏ فقط أو الوثائق التي تشتمل على مترادفات لهذه المصطلحات. 
إضافة إلى ذلك فإنه عند مقارنة نموذج المجموعة الضبابية بنموذج الفراغ الاتجاهي» 
فإن نموذج المجموعة الضبابية لا يتيح أي آلية لتوسيع الاستفسارات. وعلى عكس 
النموذج الاحتمالي فإن نموذج المجموعة الضبابية ليس بمستوى النموذج الاحتمالي 
من ناحية قوة الأساس النظري» لذلك لم يحظ هذا النموذج بتطبيقات كاملة وقدتم 
تطبيقه بصورة متقطعة في بعض النظم المحدودة لأغراض التجربة والاختبار. 


> 9.6 نماذج أخرى لاسترجاع المعلومات 


تمت الإشارة في بداية هذا الفصل إلى أن نماذج الاسترجاع التي تم استعراضها 
هي وامتداداتها كلها نماذج تم تطبيقها في أنظمة استرجاع معلومات بصورة أو بأخرى» 
وإضافة إلى هذه النماذج توجد مجموعة أخرى من نماذج استرجاع المعلومات التي 
تم تطويرها تعتمد على آليات التفاعل بين المستفيد والنظام ولعل أبرزها مجموعة 
النماذج المعرفية Cognitive Models‏ الذي يعتمد على العوامل الخاصة بالمستفيد 
User Factors‏ في استرجاع المعلومات. وقد تمت الإشارة إلى أن هذه النوعية من 
النماذج لن يتم مناقشاتها في هذا الكتاب. وسيتم فيما يلي عرض ملخص عام 
للملامح الرئيسة للنماذج الثلاثة التي تم استعراضها في هذا الفصل. 
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> 9.7 ملخص عام لنماذج استرجاع المعلومات 

يستعرض الجدول التالي الملامح الرئيسة للنماذج الثلاثة حيث يقارن بين تلك 
النماذج من خمس زوايا أساسية هي: 

1. دعم المنطق البوليني 

2. التعامل مع وزن المصطلحات 

3. دعم ترتيب النتائج 

4 معايير المضاهاة المطبقة بالنموذج (تحديد مدى التشابه بين الاستفسارات والوثائق). 

5. ملامح إضافية مميزة. 

ومن الملاحظ أن هذه الملامح الخمسة تعبر بشكل عام عن معايير الحكم على 
نقاط القوة والضعف في نماذج استرجاع المعلومات. فعلى سبيل المثال» يشير 
الملمح الخاص بدعم النموذج للمنطق البوليني إلى قدرة النظام وتمكين المستفيد 
من هيكلة الاستفسارات وبناء العلاقات بين المصطلحات. وعلى الجانب الآخر 
للميزة نفسها والمتعلقة بدعم المنطق البوليني فإنها تؤدي إلى فقدان النظام لميزة 


جدول )9.1( يلخص النماذج العامة لاسترجاع المعلومات ومزاياها وعيوبها: 
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لمنطق البوليني نعم 
الوزن نعم نعم 
الترتيب نعم نعم 
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معايير المضاهاة ظهور المصطلحات ١‏ مساحة التوجيه (السهم | تردد المصطلحات 
الموجه) 
ملامح إضافية مميزة الصلاحية الراجعة 




















ويتضح من الجدول أن النموذج البوليني هو الأضعف بين النماذج الثلاثة من 
حيث المزاياء فالنموذج البوليني يدعم فقط البحث البوليني» وتتم المضاهاة بناء 
على استخدام المصطلح الذي يبحث عنه المستفيد بوثائق النظام أو عدم استخدامه. 
مع ذلك فإن النموذج البوليني هو أكثر نماذج استرجاع المعلومات تطبيقاً في أنظمة 
قواعد البيانات الببليوجرافية على وجه الخصوص . أما النموذجان الآخران فييدو 
هما Lab.‏ مها هان من عك العمل oj Sols gobi le,‏ المسطالحياك 
وترتيب النتائج وعدم تطبيق آليات البحث البوليني. ويختلف النموذجان فيما Login‏ 
في معايير وزن المصطلحات وترتيب النتائج. إضافة إلى ذلك تميز نموذج الفضاء 
الاتجاهي باستخدام آليات الصلاحية الراجعة كملمح فريد من ملامح الأنظمة المطبقة 
لهذا النموذج. وقد بذلت جهود كبيرة لبناء أنظمة تطبق آليات وزن المصطلحات 
وترتيب النتائج بالاعتماد على النموذجين (الفضاء الاتجاهي والاحتمالي)» بحيث 
تتيح إمكانيات أكثر فعالية وكفاءة من النموذج البوليني» إلا أن هذه الأنظمة لم تستطع 
تحقيق تميز ملحوظ في أدائها الاسترجاعي عن النظم التي تعتمد على نموذج المنطق 
البوليني )1997 -(Korfahge,‏ 


> 9.8 العلاقة بين نماذج استرجاع 
المعلومات واليات الاسترجاع 


تم في الفصل الخامس مناقشة واستعراض آليات البحث والاستر جاع المختلفة» 
ومن الضروري التعرف إلى العلاقة بين نماذج استرجاع المعلومات وآليات الاسترجاع 
التي تمت مناقشتها. فعلى الرغم من عدم وجود علاقة واحد لواحد One to One‏ بين 
كل منهاء إلا أن بعض آليات الاسترجاع ترتبط بوضوح بنماذج استرجاع المعلومات التي 
اشتقت منها. فعلى سبيل المثال يرتبط البحث البوليني بنموذج المنطق البوليني بشكل 
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مباشر حيث إنه تطبيق واضح المعالم لهذا النموذج» كما أن توسيع الاستفسارات وخاصة 
باستخدام آليات الصلاحية الراجعة يرتبط بشكل مباشر بنموذج الفراغ الاتجاهي» كما أن 
البحث بالوزن يعتمد على خوارزميات تم تطويرها بالاعتماد على النموذج الاحتمالي 
وغيرها من نماذج الاسترجاع مثل النموذج البوليني الموسع. 

وعلى الجانب الآخر توجد آليات استرجاع أخرى اعتمدت على نماذج استرجاع 
المعلومات الإضافية» فعلى سبيل المثال اعتمد البحث التجاوري في جذوره الأساسية 
على البحث البوليني الموسع. وعلاوة على ذلك تم تطبيق بعض آليات استرجاع 
المعلومات في أنظمة لم يتم تصميمها بالاعتماد على النموذج الذي اشتقت منه 
هذه الآليات» حيث تم تطبيقها جنباً إلى جنب مع آليات تلك النماذج بصرف النظر 
عن مصدرهاء بالتالي OL‏ تصميم النظام يعتمد على تطبيق آليات استرجاع أكثر من 
تطبيقه لنماذج استرجاع. وتخلط النظم في كثير من الأحيان بين أكثر نموذج بغرض 
تطبيق آليات استرجاع متنوعة. لذلك تظهر الحاجة إلى تطوير نظم متعددة النماذج 
لاستر جاع المعلومات .Multimodel IR System‏ 

فالمعرفة الدقيقة للعلاقة بين نماذج استرجاع المعلومات وآليات الاسترجاع 
تساعد على اختيار النظام الملائم وفقاً للمهام التي يجب أن تؤديها تلك النظم. فعلى 
سبيل المثال لا بد من تطبيق النموذج البوليني في حالة حاجة المستفيد إلى إجراء 
بحث بولينى» أمافى Ue‏ حاجة المستفيد إلى وزن المصطلحات البحثية وترتيب 
التتائج هنا تظهر TE‏ إلى نموذج الفراغ الاتجاهي أو النموذج الاحتمالي ويتم 
تحديد أيهما الأنسب بناء على احتياجات المستفيدين من النظام أيضا. 


< 9 نحو نظم استرجاع معلومات متعددة النماذج 
Multimodel IR Systems‏ 
لكل نموذج من نماذج استرجاع المعلومات التي تم استعراضها في هذا الفصل 
مزاياه وعيوبه» من ثم فإن النظم التي تطبق هذا النموذج سوف تؤدي وظائف 
استرجاع معينة وفقاً لإمكانيات هذا النموذج. لذلك من الضروري أن يعمل نظام 
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استرجاع المعلومات على الافادة من المزايا التي تتمتع بها كل النماذج من خلال 
دمج تلك النماذج في نظام متعدد النماذج. وقد تم التعبير عن المفهوم نفسه في 
دراسات فرانشس وآخرون )1999 (Frants, et, el.,‏ حيث أطلقوا على هذه النوعية 
من الأنظمة مصطلح أنظمة متعددة الإصدارات .Mutiversion Systems‏ وتشير 
الممارسات الحالية في أنظمة استرجاع المعلومات إلى أن النموذج البوليني هو 
النموذج الأكثر انتشاراً وتطبيقاً في أنظمة استرجاع المعلومات الببليوجرافية. ويتم 
تطبيق النماذج الأخرى تدريجياً في أنظمة استرجاع المعلومات على الإنترنت. فإذا 
كانت استفسارات المستفيدين تتراوح بين استفسارات بسيطة ومحدودة من حيث 
التعقيد إلى استفسارات مركبة ومعقدة بدرجة كبيرة» لا بد من أن يكون تصميم نظام 
استرجاع المعلومات قادر على التكيف مع تلك الاحتياجات المتنوعة من خلال 
تطبيق النظم متعددة النماذج. وتتطور أنظمة استرجاع المعلومات متعددة النماذج مع 
تطور أنظمة وآليات البحث على الإنترنت والتي أصبحت المنصة الرئيسة للوصول 
E‏ ات فی pal‏ ا امي l‏ 

ويوجد العديد من الأسئلة التي مازالت مطروحة وتظهر بشكل متوالٍ عن كيفية 
تطوير الأنظمة متعددة النماذج من خلال الدراسات والتجارب التي تتم في مؤتمرات 
استرجاع المعلومات مثل مؤتمر TREC‏ وغيره من المؤتمرات التي تقدم إرشادات 
وتوجيهات عن كيفية بناء النظم الحديثة في هذا الجانب وضرورة إجراء دراسات 
مسحية للمستفيدين للتعرف إلى احيتاجاتهم المعلوماتية وأساليب البحث التي 
يفضلونها في العصر الرقمي. 
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تمثيل المعرفة على الاند 


dasin < 

لقد أدى تطور ونمو الشبكة العنكبوتية (WWW or The Web)‏ إلى حدوث تغيير 
كبير في أساليب البحث عن المعلومات وسبل الإفادة من المصادر المتاحة من خلال 
شبكة الإنترنت. ويرجع ذلك بشكل كبير إلى النمو السريع والهائل في عدد وأشكال 
وآنواع مصادر المعلومات المتاحة من خلال الشبكة العنكبوتية» إضافة إلى تنوع تلك 
المصادر» وسهولة الوصول إليهاء هذا إلى جانب طبيعة تلك المصادر والتكنولوجيات 
المستخدمة فى إتاحتها. وقد جعلت هذه التطورات من الشبكة العنكبوتية أكبر مصدر 
للمعلومات في العصر الحالي )1999 (Bokor,‏ وقد صاحب ذلك تنوع في أساليب 
استرجاع المعلومات المتاحة من خلال بيئة الويب. ونستعرض فيما يلي تطور أدوات 
استرجاع المعلومات في بيئة الويب. 


dis 10 <‏ أدوات الوصول إلى المعلومات 
في بيئة الويب وتطورها 


قام عالم الفيزياء تيم برنر لي بوضع أسس الشبكة العنكبوتية في بداية التسعينيات 
من القرن العشرين لتكون وسيلة أساسية للباحثين في تبادل مسودات البحوث 
والرسائل الإلكترونية. ومنذ ذلك التاريخ بدأت or Lyla‏ الجاضات استخدام هذه 
الأداة في بث وتيسير سبل الوصول إلى المعلومات. ومع بداية عام 1993 كان هناك 
بضع مئات من المواقع المتاحة على الشبكة العنكبوتية معظمها مواقع تتعلق بكليات 
ومعاهد بحثية. وكانت الطريقة الأساسية لتبادل المعلومات بين مستخدمي الشبكة 
العنكبوتية في ذلك الوقت تتم من خلال بروتوكول تبادل الملفات المعروف ب File)‏ 


الفصل العاشر 


Transfer Protocol (FTP‏ وهو عبارة عن برنامج يمكن من خلاله نقل الملفات هن 
حاسب إلى حاسب آخر من خلال واجهة تعامل تعمل بالأوامر. فى تلك المرحلة 
E‏ سعرهم رمات E‏ اه ينس أن عامل مهای 
خلال هذا البروتوكول. وكانت هذه الطريقة فعالة فى ظل مجموعات الويب الصغيرة» 
تلكو هد وا ارات ر هال اع و اا E‏ ا 
مما دفع الباحثين للتنقيب عن وسائل أخرى. وتمثل أول تلك الحلول في الاعتماد 
على أحد محركات البحث التي تم تطويرها قبل نشأة الشبكة العنكبوتية والذي عرف 
بالأرشيف Archive‏ إلا أن استخدامه من خلال نظام التشغيل يونكس UNIX‏ فرض 
ضرورة اختصار الاسم إلى Archie‏ وقد قام بتطوير هذا المحرك أحد طلاب جامعة 
ماكجيل McGill‏ بمدينة مونتريال الكندية اسمه ألن إمتاج Alan Emtage‏ وقد اعتمد 
هِذاالمحرك أساسا على قاعدة يبانات بأسماء الملنات المعاحة على IK‏ الحتكر تة 
فكانت عملية المضاهاة تعتمد بشكل كبير على البحث في قاعدة البيانات عن اسم 
الملف الذي يرغب المستفيد في استرجاعه )2000 .(Gromov,‏ وقد مرت عملية بناء 
وتطوير أدوات الاسترجاع في بيئة الويب بأجيال متعددة نذكر منها مايلي: 


٠‏ الجيل الأول 


في عام 1993 طورت جماعة الاهتمام بالحاسبات بجامعة نفادا بالولايات 
المتحدة محرك بحث جديدا اعتمد على البنية نفسها المستخدمة فى المحرك 
Archie‏ وعرف هذا المحرك الجديد Archie = A> JIGdLe Vly. Veronica‏ و 
Veronica‏ هو أن الثاني كان يعمل مع ملفات النصوص Lax, «Plain Text Files‏ كان 
الأول يعمل فقط على الاسترجاع من قاعدة بيانات تشتمل على أسماء الملفات. 
ثم ظهر تقريباً في التاريخ نفسه محرك ثالث عرف ب Jughead‏ وقد اعتمد أيضا 
على البنية نفسها المستخدمة في المحرك Veronica‏ وقد تم استخدام كل من 
Jughead and Veronica‏ لتبادل الملفات من خلال أداة التصفح جوفر Gopher‏ 
والتي قام بتطويرها مارك ماكهيل 110088111 Mark‏ في جامعة ميناسوتا لكي تحل 
محل المحرك )2004( „Archie Lensse,‏ 


تمتيل المعرفة على الإنترنت 


وفي عام 1993 ظهر أول روبوت" على يد ماتشوي جاري Matthew Gary‏ والذي 
عرف بمتجول الشبكة العنكبوتية WWW Wanderer‏ وقد كان الهدف الأساسي من هذا 
الروبوت هو إحصاء معدل الزيادة في الشبكة العنكبوتية من خلال تتبع وإحصاء خوادم 
الويب النشطة -Active Web Server‏ ثم قام ماتثوي بعد ذلك بتعديل الربوت حتى يتمكن 
من تجميع محددات المصادر الموحدة URL'S‏ وقد عرفت قاعدة البيانات التي تم 
تجميعها من خلال هذا الروبوت ب :7/8006. وفي أكتوبر عام 1993 قام أرتيجن كوستر 
Artijn Koster‏ بتطوير محرك جديد يشبه فى بنيته المحرك Archie‏ وعرف هذا المحرك ب 
Aliweb‏ وقد أتاح هذا المحرك لأول ER‏ تسجيل الصفحات في محركات البحث» 
حيث أتاح الفرصة لمعدي صفحات الويب أن يقوموا بتسجيل الصفحات وتكشيفها 
ووصفها بأنفسهم, ولكنه واجه مشكلة كبيرة هي أن معدي صفحات ومواقع الويب لم 
يكن لديهم الخبرة الكافية لتكشيف وتسجيل صفحاتهم بأنفسهم )2003 (SEO,‏ 

وبحلول ديسمبر عام 1993 ظهرت ثلاثة محركات بحث جديدة في الوقت نفسه 
هي على التو الي : The World Wide Web Worm- WWWW, JumpStation, The‏ 
.Repository-Based Software Engine- RBSE‏ وقد اعتمد المحرك JumpStation‏ 
على تكشيف عناوين ورؤوس الصفحات Title and Header‏ كما اعتمد في الاسترجاع 
على البحث الخطي ® Linear Search‏ ومع نمو الشبكة العنكبوتية لم يعدهذا 
المحرك قادراً على متابعة هذا النمو السريع مما جعله يتوقف سريعاً. أما المحرك 
WWW Worm‏ فقد اعتمد على تكشيف العناوين ومحددات المصادر الموحدة Page‏ 
-Title and 59‏ ومن العيوب الأساسية في كل JumpStation and WWWW cps‏ 
أنهما LIS‏ يسترجعان النتائج دون أي ترتيب» حيث كان يتم استرجاع النتائج وفقاً 
للترتيب الذي وجدت عليه في قاعدة البيانات. أما المحرك RBSE‏ فقد كان أول 





كبيرة جداً تفوق إمكانيات مئات بل آلاف الأشخاص إذا حاولوا القيام بالوظيفة نفسها يدوياً. 
(1) البحث الخطى: هو مضاهاة حروف كلمات الاستفسار حرف بحرف بمعنى أنه إذا كان أحد الحروف 
غير متشابهة فلا يسترجع أي نتائج وهو يشبه في ذلك البحث بإستخدام CLT + F‏ في الويندوز. 
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محرك بحث على الشبكة العنكبوتية يستخدم فكرة نظم الترتيب والفرز Ranking‏ 
35 والتي يمكن من خلالها استرجاع النتائج مرتبة وفقالمعايير الصلاحية©2. 

ومع نهاية عام 1993 ظهر المحرك Excite‏ والذي كان ناتج أحد مشروعات 
تطوير المحرك Architext‏ والذي بدأه 6 طلاب في جامعة ستانفورد في فبراير عام 
3. حيث قاموا باستخدام فكرة التحليل الإحصائي Statistical Analysis‏ لعلاقات 
الكلمات والمصطلحات Word Relationships‏ من أجل جعل البحث أكثر فعالية 
وكفاءة )2005 (Wall,‏ 


٠‏ الجيل الثاني 


لم تكن كل المحاولات السابقة» في الحقيقة» تمثل مقومات محركات البحث ولم 
تكن صالحة في الأصل كمحركات ؛ نظراً OV‏ الزاحف Spider‏ أو الروبوت Robot‏ 
الذي يتولى تجميع الصفحات من الشبكة العنكبوتية لم يكن بالذكاء الكافي الذي 
يتمكن خلاله من فهم العلاقات القائمة بين الروابط الفائقة Hyperlinks‏ ومن ثم فإن 
المستفيد إذا لم يكن يعلم على وجه الدقة عنوان الصفحة التي يرغب في الوصول 
إليها فإنه كان من الصعب وربما كان من المستحيل عليه الوصول إلى تلك الصفحة. 


وفي يناير عام 1994 ظهر أول دليل بحث على الشبكة العنكبوتية الذي عرف EINet‏ 
.Galaxy‏ وقد ساعد على نجاح هذا الدليل اشتماله على ملامح البحث التي وفرها 
كل من جوفر Telnet cL y Gopher‏ «(وهما Les‏ كانا Odie‏ أهم أذوات oS BY‏ 
ذلك الوقت)» هذا إلى جانب ملامح البحث في الشبكة العنكبوتية. وقد شهد أبريل 
عام 4 مولد دليل البحث Yahoo‏ على يد كل من ديفيد فيلو David Filo‏ وجيري 
يانج Jerry Yang‏ والذي لم يكن في بدايته سوى مجموعة من الصفحات والمواقع 
المخونة على الخاسيات date tll‏ لدى Lege JS‏ 





(1) معايير الصلاحية: هي معادلات وخوارزميات رياضية تستخدمها محركات البحث لترتيب النتائج 
Lids‏ لعلاقتها بمصطلحات الاستفسار الذي يدخله المستفيد للبحث في الشبكة العنكبوتية. 
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٠‏ الجيل الثالث 


شهدت الفترة من عام 1994 حتى نهاية العقد الأخير من القرن العشرين ظهور عدد 
كبير من محركات وأدلة البحث التي تميزت بقدرتها الفائقة على بحث واسترجاع 
الصفحات والمواقع على الشبكة العنكبوتية كان أبرزها المحركات الثلاثة Google,‏ 
AltaVista, Alltheweb‏ وغيرهم. وقد شهدت الفترة من عام 4 إلى عام 2000 
منافسة شرسة بين مجموعة من محركات البحث العالمية على تغطية أكبر قدر ممكن 
من صفحات ومواقع الويب» حيث شهدت تلك الفترة العديد من دراسات المقارنة 
بين مدى تغطية محركات البحث لصفحات ومواقع الويب. 


وقد شهدت الفترة من عام 2001 إلى 2010 طفرة جديدة في محركات البحث 
تمثلت في محاولة معظم المحركات الشهيرة في التحول من مجرد محركات بحث 
إلى بوابات للويب Web Portals‏ ويشير مصطلح البوابات إلى مجموعة الأدوات 
التي تسعى إلى تنظيم مصادر المعلومات المتاحة من خلال تقسيمات موضوعية 
شاملة بحيث تشتمل البوابة على جميع أنواع المصادر والخدمات التي يحتاج 
الها ال درو مم ماتا ى seal‏ يفم خدمات E‏ ولى 
والدردشة:؛ وقوائم الخدمات والقوائم البريدية» والمواد الإخبارية» وأسعار الات 
وأحوال الطقسء إلى جانب قوائم موضوعية بمصادر المعلومات المتاحة من خلال 
البوابة إلى جانب محرك يتيح إمكانية البحث في البوابة. وإلى جانب التنوع في 
الخدمات التي تقدمها البوابات للمستفيدين منها نجد أن هذه المواقع عادة ما تتضمن 
برامج تساعد على تحليل استخدامات المستفيدين Web Usage Analyzer‏ بغرض بناء 
ملفات سمات المستفيدين User Profiles‏ ويمكن من خلال هذه الملفات التعرف 
إلى احتياجات المستفيدين والنتبؤ بهاء بالتالي اختبار المصاد ر المئاسبة لكل مستفيد 
من المستفيدين من الموقع. ويمكن أن تقوم تلك المواقع باستخدام تكنولوجيا الدفع 
Pushing Technology‏ إلى المستفيدين من الموقع. كسا Key‏ + أن تتم عملية الدفع 
عبر خدمات البريد الإلكترونى التي توفرها تلك المواقع أو إلى الصفحات الأمامية 
للمستفيدين من هذه المواقع كما يمكن أن يتم الدفع إلى دوسيهات خاصة للمستفيدين 
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من هذه المواقع. من ثم فالبوابات عادة ما تيسر لمستخدمي تلك المواقع كل أنواع 
الخدمات التى يحتاجون إليها بصورة تفاعلية» مما يوفر كل احتياجات المستفيد من 
خدمات را العنكبوتية. وفي مقابل ذلك تسعى البوابات إلى جذب 
الشركات التي تسعى إلى الإعلان عن منتجاتها وخدماتها لتحقيق الأرباح من خلال 
تلك المواقع» حيث إنه من المعروف أنه كلما زاد عدد مستخدمي الموقع» تهافقت 
الشركات على الإعلان عن خدماتها ومنتجاتها من خلال هذه المواقع. 

٠‏ الجيل الرابع 

شهدت الفترة من عام 2000 بداية تطوير جيل جديد من أدوات البحث على 
الشبكة العنكبوتية يعرف بالأعوان الذكية للبحث Intelligent Agent‏ التي تسعى إلى 
الاستفادة من إمكانيات الذكاء الاصطناعي والنظم الخبيرة لتحقيق متطلبات تشغيل 
الويب الدلالي Semantic Web‏ في تيسير عمليات البحث والاسترجاع ومازال العمل 
في هذه الأدوات في طور التجارب المبدئية. 


.(Vaughan, & Thelwall, 2003; Gordon & Pathak 1999) أربعة أساليب أساسية هى‎ 


Navigation الإبحار‎ 10.1 < 


يستخدم الإبحار آليات الوصول المباشر من خلال أدوات التصفح المعروفة مثل 
Internet Explorer‏ أو Google Chrome‏ وما توفره من إمكانيات مثل الإبحار من خلال 


سطر معين المصادر الموحد URL Line‏ أو الاعتماد على تخزين المواقع المفضلة في ملف 
المواد المفضلة أو فى ملف تاريخ الاستخدام Bookmarks‏ أو .Navigation History‏ 


Browsing التصفح‎ 10.2 > 


تنبع تلك الطريقة من طبيعة صفحات الويب التي تقود إلى بعضها البعض من 
خلال سلسلة متشابكة من الروابط الفائقة. وقد تم توظيف هذه السمة التي تتميز بها 
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الشبكة العنكبوتية في بناء فهارس موضوعية مصنفة لصفحات الويب تعرف بالأدلة. 
وهي عبارة عن قوائم برؤوس موضوعات عريضة وتحت كل رأس موضوعي عريض 
مجموعة من الرؤوس الثانوية التي تقود إلى صفحات الويب المرتبطة بالرأس 
الثانوي مرتبة وفقاً لقوة العلاقة بين الصفحة والرأس. بالطبع يمكن لهذه الأدلة أن 
تقوم بتكشيف الصفحة نفسها تحت أكثر من رأس موضوع واحد. 


> 10.3 أدوات البحث والاسترجاع على الويب 
Web Searching and Retrieval Tools‏ 


وتنقسم تلك الأدوات إلى ثلاثة أنواع رئيسة هي: 


< 10.3.1 أدلة البحث 


في عام 1994 قام ثنان من طلبة الدكتوراة بجامعة هارفرد هما جيري يانج وديفيد 
فيلو Yang and David Filo‏ يدويا بتنظيم مجموعة من صفحات الويب التي كانت 
متاحة على حواسيبهم الشخصية في شكل دليل. وقد تطور هذا الدليل سريعا ليصبح 
أشهر دليل بحث على الويب وقد أطلقا عليه دليل Coed!‏ ياهو Yahoo‏ ويتيح دليل 
البحث إمكانية الإبحار وتصفح مواقع الويب بالاعتماد على بنية هرمية مصنفة للويب 
-Gulli & Signori, (2005)‏ فعلى سبيل المثال عند البحث عن موقع عن تاريخ الويب 
يجب على الباحث التزام التتابع التالي لكي يصل إلى المعلومة المطلوبة: 


Computer and Internet > Internet > World Wide Web > History 


وعلى الرغم من أن عملية البحث من خلال التزام بنية هرمية ثابتة تساعد على 
الوصول إلى المعلومات المطلوبة أحيانا Lek‏ عندما يكون الباحث على دراية 
بالموضوعات وعلاقاتها بعضها Lan‏ إلا أنها Y‏ تصلح لتلبية كل الاحتياجات البحثية 
فنفترض مثلاً أن أحد الباحثين يريد معلومات عن «من هم مؤسسو دليل البحث 
ياهو؟» في هذه الحالة فإن عملية الوصول للمعاومات المطلوبة قد تستغرق وقتا 
طويلاً نظراً لأن الباحث بحاجة إلى البحث في البنية الهرمية للدليل ثم تصفح كل 
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الصفحات المسترجعة للوصول إلى المعلومة المطلوبة. هذا إضافة إلى أن عملية بناء 
أدلة البحث تعتمد على تجميع صفحات الويب يدوياً وة شيفها cle gy‏ مما يتعذر معه 
تغطية كل الصفحات» كما أنه يحتاج إلى وقت طويل للتعرف إلى الصفحات الجديدة 
والتعديلات التى تجرى على الصفحات القديمة. من هنا ظهرت الحاجة إلى أدوات 
كدر سبرعة فى ت ال الواقل فى ستحياف الربجه إفبانة إلى Siae‏ 
التي تجرى على هذه الصفحات. وقد كان لظهور وتطور محركات البحث أكبر PY‏ 


> 10.3.2 محركات البحث 
Search Engines‏ 


تعمل محركات البحث بصفة أساسية على بناء كشافات لمصادر المعلومات 
المتشابكة من خلال اشتقاق كلمات أو عبارات من النصوص نفسها لبناء ملفات تسمح 
ببحث هذه المشتقات بالاعتماد على أساليب البحث والاسترجاع المعروفة مثل المنطق 
البوليني» وتجاور المصطلحات. والبتر» والجذع وغيرها. والحقيقة أن هذه الملفات لا 
تتميز عن الأساليب التقليدية التي استخدمت في الاسترجاع منذ أن حل الاسترجاع 
العشوائي محل الاسترجاع التسلسلي» والتي تشتمل بصفة أساسية على ثلاثة ملفات 
حيوية هي: الملف التسلسلي Serial File‏ والملئف الكشفي Index File‏ والملشف 
المقلوب -Inverted File‏ ومع ذلك فإن التقنيات الحديثة من أجهزة وبرمجيات ساعدت 
على تحديك وبحت تلك الملفات المقلوبة بسرعة كيرة هذا إلى جاتب أنهنا أضافت 
إلى تلك الملفات مجموعة جديدة من الملفات لتيسير عمليات البحث والاسترجاع 
مثل ملف الروابط الفائقةء ملف وصف الوثائق.. إلخ )1998 Lancaster,‏ 


٠‏ الفرق بين محركات وأدلة البحث 


قبل التعرف إلى طريقة عمل محركات البحث لا بد من التمييز بين محركات وأدلة 
البحث وما هي المتطلبات التي دفعت إلى التنويع في أدوات البحث والاسترجاع. 
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الملمح الأساسي الذي يميز محركات البحث عن أدلة البحث أنها تعتمد بشكل 
أساسي على برامج الزحف Crawling Software‏ التي تقوم بمسح الشبكة العنكبوتية 
للتعرف إلى الصفحات الجديدة وتجميع نسخ منها في ملفات خاصة من أجل تيسير 
عمليات تكشيفها. هذه الزواحف عبارة عن برامج تقوم بتتبع الروابط الفائقة من 
صفحة إلى أخرى ومن موقع إلى آخر. وفي بعض الحالات يمكن لصاحب الموقع أن 
يعرف محرك البحث على موقعه من خلال تعريف العنكبوت أو الزاحف على عنوان 
هذا الموقع أو معين المصادر الموحد CURL)‏ الخاص بهذا الموقع. أما الأدلة فهي 
لا تعتمد على برامج للزحف» وإنما تعتمد بشكل أساسي على الإمكانيات البشرية في 
تصفح الشبكة العنكبوتية للتعرف إلى الصفحات الجديدة وتكشيفها. 

لذلك يمكن القول إن محركات البحث تعتمد على التجميع والتكشيف الآلي» 
بينما تعتمد أدلة البحث على التجميع والتكشيف اليدوي. بالتالي فإن محركات 
البحث تستطيع التجميع والتكشيف بسرعة أكبر بكثير من سرعة أدلة البحث مما 
يجعلها أكثر شمولاً في تغطية صفحات ومواقع الويب. 

ويتبادر إلى الذهن هنا سؤال مهم هو لماذا نحتاج إلى أدلة بحث مادامت 
محركات البحث أكثر سرعة وكفاءة؟ 


الإجابة بشكل مختصر هي الجودة Quality‏ حيث إن القائمين على تجميع 
الصفحات وتكشيفها بشكل يدوي بالطبع لديهم قدرة أكبر على التمييز بين 
الصفحات والتعرف إلى مدى ملاءمتها للفئة التي يتم تصنيف الصفحة تحتها. كما 
أن هذا الشخص لديه قدرة أكبر من البرامج على تجميع الصفحات المهمة واستبعاد 
الصفحات غير المهمة واختيار الرؤوس المناسبة. وقد أثبتت التجارب العلمية العديدة 
التي أجريت للمقارنة بين أساليب التكشيف اليدوي والتكشيف الآلي تفوق التكشيف 
اليدوي في دقة النتائج المسترجعة عن التكشيف الآلي» بينما يتفوق التكشيف الآلي 
في عدد النتائج المسترجعة. 


في عام 2008 سجل محرك البحث جوجل أنه اكتشف أكثر من تريليون معين 
مصادر موحد Uniform Resources Locators - URLs‏ لصفحات ومو اقع ويب قابلة 
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للبحث والاسترجاع من خلال المحرك. ومع ذلك أشار العديد من الدراسات إلى أنه 
لايوجد محرك بحث واحد قادر على تكشيف وبحث كل صفحات الويب المتاحة 
على CIM‏ وسعرض pl Lad‏ كيف تعمل محركات البحث على تسير بحت 
واسترجاع صفحات الويب من خلال عرض عمليات التجميع والتكشيف والعوامل 
التي تؤثر في البحث وترتيب الصفحات المسترجعة (1.2). حيث تعتمد محركات 
البحث على تجميع صفحات الويب من خلال أدوات يطلق عليها الزواحف التي تقوم 
بالحصول على نسخ من صفحات الويب ثم تقوم المحركات بتكشيف تلك الصفحات 
وإعداد كشافات تيسر عمليات البحث والاسترجاع من خلال أدوات البحث التي 
يستخدمها الباحثون أثناء التفاعل مع واجهات تعامل متاحة من خلال الويب. من ثم 
فمحركات البحث تتكون من 5 عناصر أساسية هى: الزواحف» والكشافات» وقاعدة 
البيانات» وأداة الببحث» وواجهة التعامل إلى AS ule‏ الفرز والترتيب. 


:Web Crawling زواحف الويب‎ I 


تعد أداة ماثيو جاري Matthew Gray‏ التي La, gb‏ خلال عام 1993« والمعروفة ب World‏ 
«Wide Web Wanderer‏ أول محاولة لتطوير أداة للتجميع الآلي لصفحات الويب في مقابل 
التجميع اليدوي الذي اعتمدت عليه أدلة البحث )1995 Gray,‏ واعتمدت تلك الأداة على 
تحميل صفحات الويب واختبار الروابط الفائقة التي تربطها بصفحات أخرى ثم تقوم 
بتحميل كل الصفحات المرتبطة التي تكتشفها أثناء تتبع روابط الصفحة الأصلية حتى تنتهي 
من تجميع كل الصفحات التي تكتشفها أثناء عملية التصفح. وهي الطريقة التي تعمل بها 
كل أدوات التجميع الآلي والتي يطلق عليها العنكبوت Spider‏ أو الروبوت Robot‏ 

ونظراً لضخامة حجم الويب فإن محركات البحث عادة ما توظف آلاف الزواحف 
التي تقوم بتصفح الشبكة العنكبوتية لتحميل صفحات الويبء والبحث عن روابط 
فائقة لصفحات جديدة» إضافة إلى إعادة زيارة الصفحات القديمة التى يمكن أن 
يكون محتواها قد تغير. E‏ قسن سح قاق الةو CEEP E‏ 
بناء على معدلات وتتابع التغيير في تلك الصفحات وذلك بغرض تحديث محتوى 
الكشافات التي تتضمن معلومات عن تلك الصفحات. 
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وتعد تغطية كل ما تحويه الويب من صفحات أمراً في غاية الصعوبة ومن 
ola‏ الع لع تس أي ورل Lge Cale poll‏ ايس E‏ سب جه 
الويب ولكن أيضا بسبب معدلات التغيير السريعة في محتوى صفحات ومواقع 
الريب كا 0 الغديد مين اقحات اهر راتخي دلت Pigs pda‏ 
عليه الروابط الفائقة غير النشطة Jonae Link Died Link‏ ويرى بروستيلر كاهلى 
Brewster Kahle‏ مؤسس أرشيف الإنترنت Internet Archive‏ أن العمر المتو قع لأي 
صفحة ويب قديصل إلى 0 يوم في المتوسط )2003 -(Weiss,‏ 


وتنقسم الويب إلى ثلاثة مستويات من حيث إمكانيات تعامل الزواحف مع تلك 
الأدوات )2001 :(Bergman,‏ 


© الويب السطحي :Surface Web‏ 
ويطلق عليه أيضاً مستوى الويب المرئى Visisble Web‏ أو الويب المكشف 
Indexable Web‏ أو الويب المضيء Lighened Web‏ ويشمل جز ie‏ من الشبكة 
العنكبوتية العالمية المتاحة للمستفيد العام دون الحاجة إلى تحقق من هوية المستفيد 

كما أنه متاح للتجميع من خلال الزواحف والتكشيف بمحركات البحث. 


:Deep Web الويب العميق‎ © 


يطلق عليه مستوى الويب غير المرئى أو الويب المخفى Invisisble Web,‏ وهو أجزاء 
بمحركات البحث. وعادة ما تستخدم المواقع الحكومية والتجارة الإلكترونية ومواقع 


:Dark Web الويب المظلم‎ o 


باستخدام برامج خاصة مثل «TOR OR The Onion Router‏ وهي شبكة تصفح 
شُعَبِيّة مجهولة تستخدم للاتصال بالويب المظلم. وعادة ما يستخدم قراصنة الويب 


الفصل العاشر 


أدوات البحث من اكتشافها واكتشاف مصدرها كما تستخدمها المواقع غير القانونية 


في بث معلوماتها. 
ويمكن تقسيم زواحف الويب إلى ثلاثة أنواع هي: 
í‏ الزواحف الآلية Automated Based Crawlers‏ 
هي الزواحف التي تعتمد عليها محركات البحث في اصطياد الصفحات وتجميعها 


بصورة آلية دون تدخل بشري. وتستخدم تلك الزواحف برامج حاسب آلي تقوم 
بتصفح الويب لتحديد الصفحات الجديدة ثم تقوم باصطيادها وتجميعها. 


san nomon DEEP WEB "nu ne 


Medical Records Financial Records 


Government Resources 
Legal Documents 


Competitor Websites 


3 = Media a ty Organization-specific 
Repositories 


Scientific Reports 


Subscription Information 


A part of the Deep Web accessible only thro, ghc certain browsers such as Tor designed to 
b 1 involvement with the Dark Web. 





Deep Web Technology. https://www.deepwebtech.com/deepweb-not-darkweb 
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Human Based Crawler ب. الزواحف البشرية‎ 


من مجمعى الصفحات الذين يجوبولن الشبكة العنكبوتية لاصطياد الصفحات 


Hybrid Crawlers” Or Mixed Results ت. الزواحف المختلطة‎ 


وال مالاا نادرة الاستخدام لارتفاع تكلفتها ومن أمثلة محركات البحث 
التى تعتمد على هذا الأسلوب أداة Inktomi‏ 


وتحدد بعض الصفحات التي لا يرغب القائمون عليها إتاحتها من خلال محركات 
البحث وذلك لأسباب متعددة منها: أن تشتمل على معلومات خاصة بالعاملين في 
مؤسساتهم فقطء أو تتضمن معلومات لها درجة سرية محدودة أو غيرها من الأسباب. 
وفي هذه الحالة يستبعد القائمون على تطوير هذه الصفحات تجميعها من خلال الزواحف 
باستخدام بروتوكول استبعاد الروبوت Robots Exclusion Protocol‏ وهو عبارة عن كود 
يتم وضعه ضمن أكواد HTML‏ بالصفحة لاستبعاد الزواحف من التعامل مع تلك الصفحة. 

أما الغالبية العظمى من المؤسسات فترغب في تكشيف وإتاحة صفحاتها من 
خلال محركات البحث» ما يعطيها فرصة أكبر للظهور والاسترجاع. فيقوم المسؤولون 
عن تطوير الصفحة باستخدام بروتوكول خريطة الموقع Sitemap Protocol‏ وهو أداة 
تدعمها معظم محركات البحث تتيح للزاوحف قائمة بعناوين المصادر الموحدة التي 
يمكن تكشيفها عند التعامل مع الموقع .(/https://www.sitemaps.org)‏ وتعد هذه 
التقنية في غاية الأهمية للزاوحف حيث تمكنها من التعرف إلى عناوين المواقع التي 
لايمكنها الوضول Lgl]‏ من خلال اساليب الزحف التقليدية بائتالي لايمكتها الوضول 
إلى تلك الصفحات وخاصة صفحات الويب العميق. 


الفصل العاشر 


Indexing and Ranking التكشيف والفرز‎ IT 


عندما ينتهي الزاحف من اصطياد الصفحات ويقوم بتجميعها في مستودع الوثائق 
يقوم محرك البحث بتكشيف محتوى الصفحات» حيث يقوم بتجميع الكلمات 
والمصطلحات والعبارات الواردة في تلك الصفحات مع استبعاد الكلمات كثيرة 
التردد والتى يطلق عليها كلمات الوقف Stop Words‏ وهی الكلمات التى تتردد كثيرا 
فى الوقائق LILES‏ وعادة Le‏ هره ده الكليات إلى IVI‏ الموضوعية 
التى يمكن استخدامها فى البحث عن الوثيقة مثل حروف الجر وأسماء الإشارة 
وال اة والزمان ONS el pe‏ ذلك للوثائق باللغة العربية (في» من» على» عند.. ..الخ) أو 
باللغة الإنجليزية .(a, an, the, when, on... etc)‏ كما تقوم المحركات Laf‏ باستخدام 
أسلوب الجذع Stemming‏ وهو عبارة عن طريقة تساعد على تجميع الأصول اللغوية 
للكلمات والمصطلحات من خلال استبعاد البدايات Prefixes‏ واللواحق Suffixes‏ 
عنما ساعد على اخ ع تكشيف الكلسات واد انات )25 ple TNs‏ 
المحتوى الموضوعى للوثائق. فعلى سبيل المثال كلمات مثل eating, eats and eaten‏ 
كلها مشتقات من الأصل اللشوي eat‏ بالتالي فإن البحث عن المصطلح S peat‏ 
يسترجع كل المشتقات وبدائل والمصطلح مما يحسن من كفاءة الكشاف. 
ويمكن تصور شكل الكشاف بأنه عبارة عن قائمة بالمصطلحات الواردة في 
صفحات الويب وأمام كل مصطلح من هذه المصطلحات أرقام الوثائق التي ورد 
بها المصطلح القابل للبحث. فعلى سبيل المثال إذا كان الكشاف يشتمل على أربعة 
مصطلحات وأرقام الوثائق التي تعبر عنها هي كالتالي: 
جدول رقم (10.2) المصطلحات الكشفية وطريقة تمثيلها بالمحركات 

















المصطلحات بالكشاف أرقام الوثائق 
Internet‏ 2,5 
Search‏ 1,5,6 
Browse‏ 1,2 
Tool‏ 4 
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فإذا كان الباحث يبحث عن المصطلح Search‏ فإن النتائج المسترجعة ستشتمل على 
الوثائق 1, 5 كيد الوح a‏ امررواه! مي a ala‏ ردي ققدم 
حيث إنها الوثيقة الوحيدة التي ورد بها كل من المصطلحين معاً. وذلك في حالة اعتبار 
المعائل AND‏ هو المعامل ped II‏ عند البحك بجمل: وقد تعمد ONS pres‏ البحف على 
معاملات أخرى» وسوف يتم مناقشة أساليب البحث بشكل أكثر تفصيلاً فيما يلي. 


الوزن Weighting‏ : يقوم على تحديد قيمة رقمية للمصطلح تحددمدى 
صلاحيته وأهميته بالنسبة للوثيقة التي تم تكشيف المصطلح منها. ومن أبرز 
أساليب وزن المصطلحات استخدام عدد مرات تردد المصطلح في الوثيقة Term‏ 
Frequency‏ والذي يتم على أساسه تحديد أهمية المصطلح بالنسبة للصفحة 
وفقاً لعدد مرات تردد المصطلح في الصفحة. فعلى سبيل المثال إذا كان أحد 
الباحثين يريد معلومات عن Egypt‏ فإن الصفحة التى يرد فيها المصطلح Egypt‏ 
خمس مرات عادة ما تكون أكثر أهمية من صفحة أخرى يرد فيها المصطلح 
مرة واحدة. وعلى الرغم من ذلك فإن تردد المصطلحات Shy‏ بعاملين أساسيين 
هما (2004 (Garcia-Molina & Gyngyi,‏ . 


Page Size حجم الصفحة‎ 


فعلى سبيل المثال الصفحة التي تردد المصطلح بها 5 مرات» وتشتمل على 1000 
كلمة تصبح أهمية المصطلح بالنسبة لهذه الصفحة تعادل 0.005 . بينما الصفحة 
التي تردد بها المصطلح مرة واحدة وتشتمل على 100 كلمة فقطء تكون أهمية 
هذا المصطلح بالنسبة لهذه الصفحة هي 1 /» من ثم تكون الصفحة التي ورد بها 
المصطلح مرة واحدة أكثر أهمية من صفحة أخرى ورد بها المصطلح 5 مرات نظرا 
لأن حجم الصفحة أثر في الأهمية النسبية للمصطلح. 


Spamming الخداع‎ .1 


استخدام تردد المصلحات كأسلوب لتحديد الأهمية النسبية لصفحات الويب يتأثر 
بأساليب إغراق الصفحات بكلمات ومصطلحات وتكرارها عدد من المرات لزيادة 
الأهمية النسبية لهذه الصفحات عند مقارنتها بصفحات أخرى. فعلى سبيل المثال 
إذا أراد مطورو صفحات الويب أن يتم تكشيف الصفحة التي يقومون بإعدادها تحت 
مصطلح أو مجموعة معينة من المصطلحات» فإنهم يكررون هذا المصطلح عددا 
كبيراً من المرات لزيادة الأهمية النسبية للوثيقة عند تكشيفها تحت هذا المصطلح» 
ممايرفع من مكانتها في الترتيب النهائي للوثائق. ويعرف هذا الأسلوب بخداع 
محر كات البحث .Search Engine Persuasion‏ 

2 القرتيب وفقا لموقع المصطلح وشكله 

هذه الطريقة تعتمد على إعطاء وزن نسبى للصفحة بناء على السياق الذي ورد 
فا لهاع في اة gh SL‏ المد ق اا خط كير ایر 
أو Large or Bold oe rel‏ من بقية المصطلحات فإن ذلك يعني أن هذا المصطلح له 
أهمية نسبية أكبر من غيره من المصطلحات. كما أن ظهور المصطلح في أماكن معينة 
مثل عنوان الوثيقة قد يعني أن المصطلح له قيمة أكبر من غيره من المصطلحات التي 
لم ترد بعنوان الوثيقة. 

3. استخدام نصوص الزاوية Anchor Text‏ 

تعتمد هذه الطريقة على إعطاء أهمية نسبية للوثيقة وفقاً لعدد مرات ظهور 
المصطلح ضمن أقواس الزاوية للوثيقة المصدرية أو ضمن أقواس الزاوية لوثيقة 
أخرى تشير إلى الوثيقة. بعبارة أخرى إذا كان المصطلح ورد بالوثيقة وبه رابطة نشطة 
لصفحة أخرى فإن ذلك يعني أنه مصطلح مهم» كما أن ورود المصطلح بوثيقة أخرى 
بها رابطة نشطة تشير إلى الوثيقة المكشفة يعني أن الوثيقة الحالية تتناول المصطلح 
المشار إليه من وثيقة أخرى. 


على سبيل المثال إذا كانت الوثيقة الحالية بها رابطة نشطة لمصطلح Search‏ 
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Engines‏ فإن هذا يحمل معنيين: أن هذا المصطلح مهم بالنسبة للوثيقة الحالية كما 
أنه Lal‏ ااا pete geil‏ ا 

وقد أدى استخدام محركات البحث لهذا الأسلوب إلى ظهور ما يعرف بالروابط 
المخادعة Spamming Links‏ وخاصة لدى محرك البحث جوجل فيما عرف بفرقعات 
جوجل Google Bombing‏ ولعل أشهر أمثلة فرقعات جوجل التي جاءت نتيجة 
لاستخدام أسلوب تحليل نصوص الزاوية لاسترجاع صفحة البيت الأبيض White‏ 
House‏ في قمة النتائج المسترجعة عند البحث في جوجل عن مصطلح miserable‏ 
failure‏ وهي الفضيحة التي اهتم بها الإعلام الأمريكي؛ نظرالوجود الكثير من صفحات 
الويب التي تشير إلى موقع البيت الأبيض باستخدام هذا المصطلح ضمن نصوص 
الزاوية الخاصة بها. وقد عالج جوجل خلال السنوات القليلة الماضية مشكلة الفرقعات 
من خلال تطوير خوار زميات التكشيف وآليات البحث )2009 (Moulton & Carattini,‏ 


4. استخدام الروابط الفائقة 


يعتبر استخدام الروابط الفائقة لرسم شكل الويب من أكثر الأساليب استخداماً 
a‏ ره ف ا locos Vint‏ عرض ا 
العنكبوتية في صورة نقاط ارتكازية يطلق عليها أسانيد Authorities‏ وروابط Links‏ 
توضح صورة بيانية لصفحات الويب وعلاقتها ببعضها بعضاً. فقد قام كل من سيرجي 
براين ولاري بيدج «Sergey Brin and Larry Pag‏ عندما كانا طلبة دكتوراة بجامعة 
ستانفورد بتطوير محرك البحث جوجل» بالاعتماد على فكرة رسم الويب في صورة 
شكل من خلال توضيح علاقة صفحات الويب ببعضها البعض مما يساعد في 
تحديد صلاحية صفحات الويب من خلال دراسة تلك العلاقات. ففي عام 1998 
قاما بإعداد دراسة عن كيفية قياس صلاحية صفحات الويب من خلال دراسة موقع 
صفحة الويب في إطار الشكل العام للويب Web Graph‏ وبصفة خاصة عدد الروابط 
الفائقة المرتبطة بالصفحة Incoming Links‏ وعدد الروابط الفائقة الخارجة من 
الصفحة Outgoing Links‏ وتعتمد هذه الطريقة على فكرة الاستشهادات المرجعية 
التي استخدمها يوجين جارفيلد Eugene Garfield‏ في تحديد الأهمية النسبية 


الفصل العاشر 


للدوريات العلمية والأهمية النسبية للمقالات ومؤلفي المقالات» حيث يتم تقييم 
الصفحة على أساس عدد الاستشهادات (الروابط التي تشير منها وإليها). فالصفحة 
التي als‏ ضذدا كيرا من lle tee‏ في موضوع من تعد صنفحة أكثر أهمية 
من صفحة أخرى تتلقى عدداً أقل من الاستشهادات» بالتالى فالصفحة التى تتلقى 
hove‏ كير امن Yolo tee‏ بد أن رها أعلى عن الصفحة التي fade gil‏ 
أقل من الاستشهادات. وقد أطلق براين وبيدج على خوارزمية الفرز مصلح ترتيب 
الصفحة PageRank‏ والتى تمثل الأداة الأساسية فى بنية محرك البحث جوجل Brin)‏ 
Page, 1998‏ &). وقد بدأ معظم محركات البحث منذ بداية الألفية الجديدة الاعتماد 
على تحديد الرسم البيانى للويب كاداة أساسية في إعداد خوار زميات الترتيب التي 
تستخدمها في ترتيب النتائج. 


ويوضح الشكل رقم (10.3) الرسم البياني للويب حيث تظهر فيه مجموعة 
من الصفحات على أنها نقاط ارتكازية والروابط المرتبطة بهذه الصفحات. ويتم 
تحديد ترتيب الصفحة بناء على حجم ولون النقاط الارتكازية» ومن الملاحظ أن 
الصفحات التي حصلت على ترتيب High PageRank Jle‏ (والممثلة باللون الأحمر) 
هي الصفحات التي تشتمل على عدد أكبر من الروابط عن الصفحات ذات الترتيب 
المنخفض Low PageRank‏ والممثلة باللون الأخضر. 





شكل رقم ( 10.3) رسم بياني مبسط للويب يوضح طريقة تحديد ترتيب الصفحة PageRank‏ 
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Databases قواعد البيانات‎ II 


دق tel‏ انات القى اطلق علا أخرانا مستروعات الوثافق Cle reall‏ 
cols plead‏ اا ج يات الك ن ا رج فى lS meal AL‏ رح ذلك 
فهي لا تمثل بديلا للشبكة العنكبوتية» وإنما تتضمن معلومات عن الصفحات» هذه 
المعلومات تساعد محركات البحث على إجراء عمليات البحث Boley gle pew Vis‏ 
مايطلق على هذه المعلومات النقاط الكشفية -Indexing Points‏ ومع ذلك فهناك 
مجموعة من مح ركات البحث التي تحتفظ بنسخ كاملة من صفحات الويب التي تقوم 
بتكشيفها مثل محرك البحث جوجل Google‏ ومحرك البحث Alltheweb‏ حيث يقوم 
كل منهما ببناء مستودعات كاملة بكل الصفحات التي يتم تكشيفها لتيسير عمليات 
المتابعة والتحديث. كما أن هذه المستودعات تفيد كثيرا فى حالة حذف الصفحة من 
الشام إل ي وو وة العامة من اركشف عياف pede‏ خلال 
مايعرف بالصفحة المخبأة Page Cash‏ ويعمل محرك البحث جوجل OV‏ على بناء 
أرشيف للإنترنت بالصفحات التي تتضمنها قاعدة بياناته» ويتم تحميل هذا الأرشيف 
بالعديد من المؤسسات للحفاظ على تاريخ الإنترنت. 

Search Software برامج البحث‎ IV 


تعد برامج البحث والاسترجاع من أكثر المكونات أهمية بالنسبة لمستخدمي 
محركات البحث» حيث إن هذه البرامج هي التي تقرر أي الصفحات تتناسب مع 
استراتيجية البحث أو السؤال الذي يوجه المستفيد لمحرك البحث» كما أنها أيضا 
تحدد ترتيب الصفحات المسترجعة» حيث تدفع هذه البرامج بالصفحات الأكثر أهمية 
إلى قمة القائمة» تليها الصفحات الأقل أهمية فالأقل. ويتم ذلك ely‏ على مجموعة 
من المعادلات الرياضية التي تعرف في مجال استرجاع المعلومات بخوارزميات 
محركات البحث Search Engines Algorithms‏ 


ويقوم العديد من المتخصصين في عمليات رفع كفاءة محركات البحث Search)‏ 


Engines Optimization (SEO‏ بقضاء وقت طويل في محاولة منهم لفهم الطرق التي 
تستخدمها محركات البحث في ترتيب الصفحات المسترجعة من أجل وضع تعليمات 


الفصل العاشر 


تساعد على رفع ترتيب الصفحات ضمن النتائج المسترجعة. كما تتضمن تلك 
البرامج الأساليب المختلفة التي يمكن للمستفيد أن يستخدمها في إعداد استراتيجية 
البحث أو صياغة الاستفسار بطريقة تساعد الباحث على الوصول إلى أفضل النتائج. 


وتجدر الإشارة إلى أن محركات البحث عادة ما تعد الأساليب التي تستخدمها 
في وزن المصطلحات وترتيب الصفحات من الأسرار التي لا يمكن نشرها حيث 
اد ابو اا الع ترا عع غيرها بن REE NS pres‏ أن Laide]‏ 
لمطوري مواقع وصفحات الويب قد يؤدي إلى اتباع طرق ڌ a es‏ جد يبت 
pea!‏ كاك . ومع ذلك فإن الشركات والمؤسسات التجارية تهتم كثيراً بتريتب مواقعها 
في محركات البحث فيما يعرف بصفحة نتائج محرك البحث Search Engine)‏ 
(Result Page (SERP‏ نظراً OY‏ المستفيدين عادة ما يهتمون فقط بالصفحة الأولى من 
نتائج البحث ويقومون بعرض عدد محدود جداً من النتائج المسترجعة في قمة هذه 
ا امل a oe‏ فى حير ی ae‏ . وتلعب صفحة 
نتائج البحث في المحركات دوراً أساسياً في دعم أهمية مواقع الشركات والإعلان 
عنها حيث إنها لها حوافز اقتصادية كلما كان الموقع يظهر ضمن المجموعة الأعلى 
ترتيبا Highly Ranking‏ ضمن النتائج المسترجعة. لذلك تقوم الشركات بشراء 
مساحات وأماكن معينة لعرض إعلاناتها في صفحة نتائج محركات البحث فيما 
يعرف بالنتائج المدعومة .sponsored results (Cutts, 2006) (44+ JI)‏ 


وتوجد صناعة قائمة على مايعرف بالترقية فى محركات البحث Search Engine)‏ 
Optimization (SEO‏ تتيح للعديد من الشركات Lal‏ بمجموعة من الإجراءات التي 
Ses ee ee ee‏ 
بالاعتماد على الأساليب التي تمت مناقشتها أعلاه مما يساعد أيضاً على زيادة عدد 
الروابط الفائقة وجودة تلك الروابط. 


وتعرف الترقية بأنها أسلوب أو طريقة يمكن من خلالهالمواقع وصفحات 


المعلومات المتاحة على الشبكة العنكبوتية أن تحصل على ترتيب (Ranking)‏ أعلى 
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الترقية في محركات البحث منها ترتيب محركات البحث «Search Engine Ranking‏ 
والترقية من خلال محركات البحث Search Engine Promotion‏ وترقية مواقع 
المعلومات Website Promotion‏ وإزعاج الكشاف Spam Index‏ ومزرعة الروابط 
الويب من خلال استبعاد الصفحة من الكشاف وحظر حصادها وتجميعها من خلال 
الزاحف بالتالى تكشيفها لفترة زمنية معينة )2006 (Cutts,‏ 
وشير العديد من هراسات النسعيديو من مخ ركات البح إلى أن 1 سن كل 20 
مستفيداً يتعاملون مع النتائج التي تظهر في الصفحة الثانية من نتائج البحث وأن 1 من 
كل 100 مستفيد يذهب إلى ما وراء الصفحة الثائية. ويوجد العديد من العوامل التى 
I‏ أسباب اقتصادية: حيث إن ظهور موقع المؤسسة ضمن الصفحات العشر 
الأولى في محركات البحث يعد من أهم أساليب الدعاية عن المنتتجات 
والخدمات التي تقدمها المؤسسات» مما يساعد على تحفيز الموقع 
الاقتصادي للمؤسسة وزيادة ربحيتها إذا كانت تهدف للربح. 


ب. أسباب سياسية» حيث إن ظهور الموقع ضمن قائمة المواقع في الصفحة 
| لنتائج البحث يؤدي إلى تمييز هوية المؤسسة Organization Identity‏ 
في البيئة الإلكترونية» والذي قد يعد أحد الأهداف السياسية للدول التي 
تساعد على السيطرة من قبل مؤسسات تلك الدولة في قطاعات معينة. 

ج. أسباب ثقافية وعلمية مثل كثرة الرجوع إلى مقالات جريدة معينة أو صفحات 
جامعات أو أشخاص معينين» ما يعزز المكانة الثقافية والعلمية لتلك 
المؤسسات إضافة إلى حرص العديد من المؤسسات على تقديم المعلومات 
الصحيحة لجمهور الإنترنت حتى لا يتم خداعهم بمعلومات مضللة وغير 
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The Interface Jalsillamalg .V 


واجهة التعامل هي الجزء الذي يراه المستفيد عند التعامل مع محركات البحث والتي 
البحث. وعادة ما يبدأ البحث من واجهة التعامل حيث يقوم المستفيد بكتابة استفساره في 
صندوق البحث» الذي يرسل مباشرة إلى برامج البحثء التي تقوم بدورها بالبحث في 
قاعدة البيانات لتحديد كل الصفحات الصالحة للإجابة عن استفسار أو سؤال المستفيد» 
ثم تتولى بعد ذلك فرز هذه النتائج من الأكثر إلى الأقل صلاحية. ويقوم محرك البحث 
بإرسال بيانات عن تلك النتائج المرتبة إلى المستفيد وذلك من خلال واجهة التعامل التي 
استخدهمها المستفيد فى إعداد الاستفسار. وهذه العملية لاتستهرق أكثر من مصاع سن 
الثانية مما يوحي بمدى سرعة المحركات في أداء عمليات البحث والاسترجاع» وهو ما 
يعطيها قيمة وأهمية كبيرة ويميزها عن غيرها من أدوات البحث والاسترجاع. 


وتعتمد محركات البحث مثل جوجل وياهو وغيرهما في تصميم واجهات البحث 
على إتاحة نمط متميز من أيقونات البحث يطلق عليها البحث العمودي Vertical)‏ 
Search (Iskold, 2006‏ وتشمل ما يلي ; 

i‏ بحث الويب العادي Regular web search‏ وهو أكثر أنماط البحث شهرة 
واتشارا واسجخداما من جاتب tel‏ والذق ple Lacey‏ حك LAS‏ 
محركات البحث بصرف النظر عن نوع صفحة الويب سواء كانت متاحة في 
شكل نص تم إعداده باستخدام لغة تكويد النصوص الفائقة أو غيرها من 
أشكال الوثائق التي يمكن إتاحتها على الخط المباشر مثل PDFs‏ أو وثائق 
(Microsoft Office Word, Excel, Power Point, ...etc)‏ 

ii‏ بحثش الأخبار News Search‏ والذي يمكن من SHE‏ بحث المواقع الإخبارية 
فقط للصحف والمجلات ووكالات الأنباء وعادة ما يتم ترتيب النتائج 
المسترجعة من هذه المواقع تاريخياً بناء على تاريخ الخبر أو الموضوع. 
فمثلاً إذا كان أحد الباحثين يريد معلومات عن مبارة كرة قدم فسيتم عرض 
المواقع مرتبة من الأحدث إلى الأقدم. 
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iii‏ بحث الصور Image search‏ وتستخدم لبحث الصور التي تم اكتشافها أثناء 
عمليات حصاد مواقع الويب من خلال الزواحف» وعادة مايتم تكشيف 
الصور باستخدام أسماء ملفات الصور image’s filename‏ والنصوص 
المحيطة بالصورة» كما تسعى محركات البحث إلى تطبيق تكنولوجيا الذكاء 
الاصطناعي كمحاولة لفهم واكتشاف مضمون الصورة ولكن هذه العملية 
مازالت تسير ببطء. فعلى سبيل المثال يستطيع محرك البحث جوجل الآن 
فصل صور الوجوه ورسم خطوط من صور أخرى. 

iv‏ بحث الفيديو Video Search‏ ويتم الاعتماد فيه على بحث النصوص 
المصاحبة لملف الفيديو. ويعتمد دقة البحث في ملفات الفيديو والصور 
على قيام معدي الصور وملفات الفيديو بوصفها وصفاً دقيقاً سواء من خلال 
أسماء الملفات أو الميتاداتا أو النصوص المحيطة بهذه الملفات. 


توجد أنماط أخرى من أنماط البحث تتضمنها واجهات التعامل تشمل إمكانية 
.Scholar Search‏ كما تقوم محركات البحث Gli‏ بدمج أنواع البحث النخداقة معأ 
في صفحة نتائج محركات البحث )2007 (Mayer,‏ 


> 10.3.3 البحث الشخصي 


Personal Search 


التي يمكن أن تراعي سلوك المستفيدين عند التعامل مع أدوات ومحركات البحث 
بغرض التعرف إلى أفضل مجموعة من نتائج البحث للباحثين على الويب. فعلى 
tell‏ ول فعا الوا حف فى tty el OLS‏ الدراينات Slat‏ أن 
ثلث استفسارات المستفيدين هي استفسارات مكررة وفي معظم الأحيان يرجع 
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المستفيد إلى الصفحة نفسها التي رجع إليها من قبل» لذلك يمكن لمحركات البحث 
أن تقوم باختيار الصفحات التي استخدمها المستفيد سابقا وعرضها في قمة صفحة 
التتائج المسترجعة وذلك عندما يقوم المستفيد بإدخال مصطلحات الاستفسار نفسها 
.(Teevan et. el., 2006)‏ 


الشخصي عن البحث في الويكي (الموسوعات الحرة) حيث يمكن للباحث أن يدعم 
oy te come Promote‏ لقمة صفحة aah‏ واستبعاد ee Remove‏ 
A‏ ويد al‏ ا 0 
في نتائج الآخرين أم «(Dupont & Anderson, 2008) Y‏ 
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تمتيل المعرفة على الإنترنت 


مع العلم أن خوارزميات الفرز والترتيب في غوغل تتأثر برد فعل المستفيد فيما 
يعرف بالصلاحية الراجعة Relevance Feedback‏ عند التعامل مع صفحة النتائج» حيث 
يتم دفع الصفحات التي يكثر الطلب عليها إلى قمة القائمة ويتم دفع الصفحات التي 
يقل الطلب عليها إلى ذيل القائمة. 

ويمكن القول بإيجاز إن الإنجاز الذي حققته محركات البحث كأداة تساعد على 
بحث ملايين الصفحات والمواقع المتاحة على الويب في أقل من ثانية تطور كبير وغير 
مسبوق في آليات البحث والاسترجاع. فكما رأينا فإن محركات البحث لا تقوم ببحث 
الويب نفسها وإنما تقوم ببحث نسخ من صفحات الويب يتم تجميعها من خلال 
الزواحف التي تقوم بحصاد صفحات الويب. ويتم تكشيف النتائج في قواعد بيانات 
محركات البحث التي تتولى ترتيب صفحات الويب بناء على مجموعة من المعاملات 
«العناوين» تردد المصطلحات» حجم الخط وشكل العرض.. (l‏ إضافة إلى مستوى 
أهميتها فى شكل الويب من خلال تحليل علاقتها بالصفحات الأخرى على الويب. 
وتجدر الإشارة إلى أنه توجد منافسة بين محركات البحث غلى عرض أكثر مجموعة 
نتائج صلاحية للبحث» حيث تسعى كل المحركات إلى تطوير أدئها باستمرار للوصول 
إلى أفضل أساليب الفرز والترتيب. وكما تتنافس محركات البحث على عرض أفضل 
نتائج وتطوير مستوى الصلاحيةء فإن مواقع الويب تتنافس أيضاً في استخددام أفضل 
أساليب الترقية لكى يتم عرضها كأول نتيجة في قائمة النتائج المسترجعة. 


> 10.3.4 ملامح البحث في المحركات 
تتيح معظم محر كات البحث أساليب عدة للبحث عن صفحات ومواقع الويب: 
© البحث البسيط Simple Search‏ 


E an at‏ ااي ge pate tie Lash, cot‏ خلا لين 

إجراء البحث LAG‏ واحدة أو جملة كاملة. وتتم كتابة الكلمة أو الجملة المطلوب 
البحث عنها فى صندوق البحث دون وجود أي روابط تحدد العلاقات بين كلمات 
البحث. وقد sai‏ الدراسات المتعلقة بتحليل استفسارات المستفيدين أن هذا النمط 
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من اقباط الخ هر ILA sl‏ يفيل التسطيدوة إلى اخ اميا قرا 
اسهولة وسرعة قياقة الغبارات اة فهر لأ يجام من السسظية أي خير ةة 
في عمليات البحث والاسترجاع» هذا إضافة إلى أنه أسرع أنماط البحث» حيث 
لا يحتاج الباحث إلى بناء طريقة بحث تحدد العلاقات بين كلمات الاستفسار أو 
الانتقال من الشاشة الرئيسة إلى شاشات أخرى لإجراء عملية البحث. ولكي يستطيع 
الباحث أن يحقق أعلى معدلات الدقة في البحث باستخدام هذا الأسلوب يجب 
إتباع التعليمات التالية: 

Use Specific Terms استخدام مصطلحات محددة‎ ٠ 

LAS‏ كانت المصطلحات المستخدمة في عملية البحث دالة ومستخدمة من 
جانب المتخصصين في المجالات الموضوعية للدلالة على موضوع البحث. كان من 
السهل الوصول إلى المعلومات المطلوبةء نظراً OY‏ معظم محركات البحث تعتمد 
على تكشيف الكلمات المستخدمة فى الصفحات. وهى عادة ما تتضمن المصطلحات 
السائدة بين المتخصصين. l l‏ 

فعلى سبيل المثال إذا كان الباحث يريد معلومات عن جراحات زراعة الأعضاء 
Origin Transplant Surgery‏ فمن الأفضل أن يكحب المصطلح كاماد دون استبعاد 
أي مفهوم من المفاهيم الثلاثة. فالبعض مثلاً قد يبحث عن هذا الموضوع باستخدام 
Origin Transplant‏ ومن الواضح أن هذه العبارة البحثية غير كاملة» حيث يمكن 
أن يسترجع Le Vols‏ ليا بالغعليات الج Leal‏ نر ا OY‏ المصطلح Surgery‏ 
غير موجود ضمن مصطلحات الاستفسار. وربما يكون من الأفضل أن تبحث عن 
المشكلة التي تريد حلها على وجه الدقة باستخدام صيغة السؤال مثل: How to‏ 
install a memory card in PC‏ ولعل أكثر ed‏ كفاءة فى مثل هذه الحالات 
هي البحث باستخدام صيغة الجملة أو ما يعرف بال Phrase Search‏ والذي ستتناوله 
بمزيد من التفصيل فيما يلي. مع العلم أن أفضل أساليب البحث كما ذكرنا من 
قبل هو استخدام أحد استراتيجيات البحث التي سبق عرضها وفقا للحالة وطبيعة 
الاستفسار الذي يسعى المستفيد إلى معالجته. 
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)+( استخدام علامة الجمع‎ e 


في بعض الحالات قد تكون في حاجة إلى التأكد من أن محرك البحث سوف 
يسترجع صفحات تتضمن كل الكلمات التي اشتملت عليها صيغة البحث أو أن تكون 
أحد هذه OLAS‏ لا يمكن الاستغناء عنها في الصفحات المسترجعة. وفي هذه 
الحالة تتيح معظم محركات البحث إمكانية وضع علامة + قبل الكلمات المهمة 
بالتالي لا بسترجع محرك البحث أي صفحة إلا إذا كانت تتضمن هذه الكلمة. 


فعلى سبيل المثال قد تحتاج إلى استرجاع صفحة تتضمن معلومات عن The role‏ 
of Naser in the preparation for 1973 war‏ )595 جمال عبد الناصر في التحضير 
لحرب أكتوبر) في هذه الحالة لا يمكن استرجاع أي صفحة لا تتضمن جمال عبد 
poll‏ وري OS SL pe gS‏ العا الاد السك BLS‏ 


The Role of +Naser in the preparation for +1973 +War 


1973 ومن الممكن أن يسترجع صفحات تتضمن بقية كلمات الاستفسار ولكن محرك البحث 
سوف يعطى أهمية أكبر لكل من الصفحات التى تتضمن كلاً من ناصر وحرب 1973. 
مثال آخر : +Windows 2010+bugs‏ 


سوف يقوم محرك البحث باسترجاع الصفحات التي تتضمن هذه المصطلحات 
الثلاثة في الصفحة نفسها مع إعطاء أهمية si‏ للمصطلحات windows: bug‏ وإعطاء 
أهمية أقل للمصطلح 2010 ويستبعد أي صفحة لا تتضمن أي من هذه المصطلحات. 

وعادة ما يكون استخدام علامة الجمع مفيداً عندما تكون النتائج المسترجعة من 
البحث البسيط كبيرة جداً ولا يمكن للمستفيد الاطلاع عليها جميعاً في هذه الحالة 
يكون من المفيد تحديد المصطلحات المحورية والتركيز عليها في البحث من خلال 
وضع علامة الجمع قبلهاء مما يساعد على تضييق نطاق البحث واسترجاع عدد أقل 
مخ العام الى يسترسعها ليحك السيط: 
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٠‏ استخدام علامة الطرح(-) 


قد يحتاج المستفيد إلى البحث عن موضوع مع استبعاد جانب معين من جوانب 
هذا الموضوع أو مصطلح معين من المصطلحات المرتبطة بهذا الموضوع. على 
سبيل المثال» تخيل أنك cles‏ إلى معلومات عن Bill Clinton‏ وعندما أجريت 
البحث بالمصطلح Bill Clinton‏ وجدت late‏ كبيراً جداً من الصفحات تتناول قضية 
Monica Lewinsky‏ وأنت لست مهتما بهذه القضية فى هذه الحالة سوف تكون فى 
حاجة إلى استبعاد كل الصفحات التي تتناول Lewinsky‏ 8 من البحث. من E‏ 
تكون علامة الطرح في هذه الحالة ذات أهمية كبيرة» ويكون البحث كما يلي: 


Bill Clinton -Monica -Lewinsky+ 


بيل كلينتون مع استبعاد أي صفحة من ضمن الصفحات التي تعالج كلينتون قد 

مثال آخر قد يكون المستفيد في حاجة إلى استرجاع معلومات عن ويندوز 10 
7 بالتالى يكون المستفيد فى حاجة إلى استبعاد هذه الصفحات من خلال 
استخدام الاستراتيجية التالية: 

Windows 10 — Windows 7 -Windows 8+ 

بالتالي يمكن القول إن علامة الطرح مفيدة بصفة عامة في تركيز البحث على 
الجانت الأكثر deal‏ واسسغاد الچ انب ch tol gl‏ خاضية إذا كانت هذه الج oil‏ 
تسترجع عدداً كبيراً من الصفحات غير مرتبطة بموضوع البحث الأصلي أو باحتياجات 
المستفيد الأساسية. 


٠ه‏ استخدام علامة التنصيص « » 
لقد تعلمنا الآن كيف يمكن أن نجمع النتائج ونطرحها من خلال استخدام علامات 


تمتيل المعرفة على الإنترنت 


الجمع والطرح. والآن سوف نحاول إلقاء الضوء على عملية الضرب في محركات 
البحث. وتتم عملية الضرب في مجال استرجاع المعلومات من خلال استخدام علامة 
التنصيص» حيث يتم وضع المصطلحات في شكل جملة بين علامة تنصيص فيما يعرف 
بالبحث باستخدام الجمل .Phrase Searching‏ ويعد هذا الأسلوب g=‏ أفضل أساليب 
البحث خاصة إذا كانت مصطلحات البحث يمكن صياغتها فى شكل جملة. فعلى سبيل 
المثال في موضوع البحث Origin Transplant Surgery‏ جد أن الطريقة المثالية لصياغة 
هذا الاستفسار هي وضع كلماته بين علامة تنصيص» مما يعنى أن النتائج التي سوف 
تسترجع لا بد أن تشتمل على هذه الجملة كما وردت في استراتيجية البحث. 
مثال: (Origin Transplant Surgery»‏ 


(Search Engines Tutorials» : >i Jus 


في هذه الحالة سوف يسترجع محرك البحث كل النتائج التي تشتمل على كل هذه 
نتائج البحث سوف تقتصر على هذه الجملة فقط ولكن قد يسترجع محرك البحث 
بعض النتائج التي تشتمل على كلمتين متقاربتين والثالشة قد ترد في أي مكان آخر أو 
ربما يسترجع محرك البحث بعض النتائج التي تشتمل على هذه الكلمات الثلاث 
ولكنها غير متقاربة» ولكن هذه النتائج عادة ما ترد في ذيل قائمة النتائج المسترجعة. 

والخلاصة أن إجراء البحث باستخدام الجملة يساعد على الوصول إلى نتائج 
تشتمل على كلمات الاستفسار كما تم إدخالها في صندوق البحث» وفي ترتيبها 
نفسه» وذلك من خلال وضع علامات التنصيص حول كلمات الاستفسار. 

وتجدر الإشارة إلى أن الاتجاه العام في محركات البحث هو استخدام المعامل 
OR‏ في الربط بين المصطلحات عند البحث» بينما يرتب الوثائق المسترجعة باستخدام 
المعامل AND‏ كخط أول للترتيب يليه المعامل OR‏ كخط OU‏ فى الترتيب. 


Operators Combining المزج بين العلامات‎ œ 


من الممكن أن نحتاج في بعض الأحيان إلى المزج بين أكثر من علامة من 


الفصل العاشر 


علامات البحث مثل المزج بين الجمع والطرح والضرب. فعلى سبيل المثال قد 
يمكن إجراء البحث كما يلى: -Bill Clinton Scandals -Monica Lewinsky+‏ 

في هذه الحالة سوف يسترجع محرك البحث كل فضائح بيل كلينتون مع استبعاد 
فضيحة مونيكا من نتائج البحثء أو ربما يحتاج إلى كل ما يتعلق بسياسة أمريكا تجاه 
الشرق الأوسط مع استبعاد كل ما يتعلق بالصراع العربي الإسرائيلي: USA role in‏ 
.Middle East -Israel‏ 

في هذه الحالة سوف يسترجع محرك البحث كل الصفحات التي تتناول دور 
أمريكا في الشرق الأوسط مع استبعاد كل ما يتعلق بقضية الصراع العربي الإسرائيلي. 

مثال آخر: «تنظيم المعلومات» +الفهرسة +مارك 21 - الميتاداتا 

في هذا المثال يحتاج الباحث إلى كل ما يتعلق بالمصطلح «تنظيم المعلومات» 
كجملة على أن يكون موضوع الفهرسة ومارك 21 مصطلحات أساسية في قائمة 
التتائج المسترجعة مع استبعاد أي وثيقة تتعامل مع الميتاداتا. 

مثال آخر: قد يحتاج المستفيد إلى استرجاع صفحات عن عمليات زرع الأعضاء 
مع التركيز على زراعة الكبد واستبعاد عمليات زرع الكلى. 


Origin Transplant Surgery +Lever Transplant -Kidney+ الاستراتيجية:‎ 


رن الاير بالاكر أن سط pal gl‏ الط pill‏ انى فم ا اف 
بالكلمات الدالة باستخدام معاملات الربط البوليني -AND / OR / NOT‏ أو البحث 
بالجمل الكاملة أو البحث التجاوري proximity Search‏ أو إمكانيات البتر Truncation‏ 
والجذع Stemming‏ كانت تستخدم لفترة طويلة في نظم الاسترجاع التقليدية مثل قواعد 
البيانات الببليوجرافية ولكنها كانت في غاية الصعوبة بالنسبة للمستفيد العادي مما اضطر 
القائمين على نظم البحث والاسترجاع إلى الاعتماد على الباحثين المتخصصين لإجراء 
البحوث للمستفيدين» فيماعرف بوسيط البحث Search Intermediate‏ إلا أن محركات 


تمتيل المعرفة على الإنترنت 


البحث استطاعت التغلب على هذه المشكلة من خلال استخدام علامات أكثر سهولة 


العالمية ومدى قدرتها على استخدام أساليب البحث السابق عرضها: 


جدول (10.2) معاملات البحث فى محركات البحث ودلالاتها 





العلامة دلالتها 





+ لا بد من وجود مصطلح البحث في الصفحات المسترجعة 


z‏ استبعاد الصفحات التى تتضمن المصطلحات التى تلى علامة الطرح 








2 » استرجاع الصفحات التي تتضمن الجملة بنفس ترتيب وصياغة المصطلحات 














1. البحث المعقد باستخدام معاملات المنطق البوليني: 


على الرغم من صعوبة البحث بالمنطق البوليني خاصة عندما تكون استفسارات 
المستفيدين معقدة وطويلة» إلا أن دراسات سلوكيات المستفيدين عند تعاملهم 
مع محركات البحث أثبتت أن المستفيدين يميلون إلى استخدام عدد قليل من 
المصطلحات في عمليات البحث والاسترجاع من الشبكة العنكبوتية. فقد أوضحت 
تحليلات استفسارات المستفيدين على الويب أن متوسط عدد المصطلحات يبلغ 2.4 
مصطلح. بينما متوسط عدد المصطلحات في نظم الاسترجاع التقليدية بلغ من 12 إلى 
5 مصطلح. وقد أعطى ذلك الفرصة لمحركات البحث لبناء أساليب بحث تعتمد 
على استخدام المنطق البوليني. وسوف نستعرض فيما يلي العلامات المستخدمة في 
البحث البوليني على الشبكة العنكبوتية وطريقة الربط بين المصطلحات مع التقيد 
باستخدام عدد قليل من المصطلحات. 

سبقت الإشارة إلى أن عمليات البحث البوليني توظف ثلاثة روابط أساسية للربط 
بين المصطلحات هي AND, OR, NOT‏ ولا تختلف هذه العلامات في دلالتها كثيراً 
عن دلالة علامات الجمع والطرح والضرب. ويغطي هذا الجزء طريقة معالجة أوامر 


الفصل العاشر 


المنطق البوليني من خلال محركات البحث على افتراض أن القارئ قد استوعب 
E A TEA‏ والفى سرف تساعده کر ا cle‏ استعات هنا (ol‏ 


© المعاملأو-08 
بمعنى أو - أي حيث يعني استرجاع الصفحات التي يظهر فيها أي من المصطلحات 
الواردة فى استراتيجية البحث. بمعنى إذا كان لدينا استراتيجية بحث مكونة من ثلاثة 
مصطلحات كما يلى: Libraries OR Archives OR Museums‏ 


Libraries 20 


15 15 
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سوف يقوم محرك البحث باسترجاع كل الصفحات التي تتضمن أي مصطلح من 
المصطلحات الثلاثة» فإذا كانت الصفحات التى تتضمن المصطلحات الثلاثة السابقة 


موزعة كما يلي: 


مع مراعاة أن بعض الصفحات قد تعالج أكثر من موضوع في الوقت نفسه» هذه 
الصفحات فى هذه الحالة تعد مكررات لا بد من استبعادها فمثلاً: 


تمتيل المعرفة على الإنترنت 


Libraries And Archives 4 Pages 

Libraries And Museum 3 Pages 

Archives And Museums 4 pages 

Libraries And Archives And Museums 2 page 


يكون عدد الوثائق المسترجعة في هذه الحالة يشتمل على )16 +11 + 10= 
7 صفحة) معنى ذلك أن هناك 13 وثيقة تكرر بها مصطلحان ووثيقتان فقط تكرر 
بهما المصطلحات الثلاثة. بالتالي يقوم محرك البحث باستبعاد كل الوثائق المكررة 
والاحتفاظ بنسخة فريدة من أي صفحة مسترجعة. 


AND المعامل‎ ٠ 


يستخدم هذا المعامل مع المفاهيم المتنوعة في دلالتها لتحقيق الربط بينهاء ويعني 
استرجاع كل الصفحات التي تتضمن جميع المصطلحات الواردة في استراتيجية 
البحث Les‏ بحيث إذا كان أي من الصفحات لم يرد فيها أي من المصطلحات المحددة 

Globalization AND Economic AND Developing Countries مثال:‎ 


تشير هذه الاستراتيجية إلى ضرورة أن تتضمن كل الصفحات المسترجعة على 
كل المصطلحات الواردة في استراتيجية البحث. بمعنى أن تعالج كل الصفحات 


Internet AND Search AND Tools مثال آخر:‎ 


ede ts‏ الاسعرائبجية إلى أن كل الضصفحات السترجعة لا بد أن cet‏ كل 
المصطلحات الواردة في استراتيجية البحث. بالتالي لكي تسترجع أي صفحة لا بد أن 
تعالج موضوع الإنترنت والمحركات والآدوات. وكما هو واضح من الشكل أنه نقطة 
التقاطع بين المصطلحات الثلاثة. 


الفصل العاشر 


= 
Internet \ 


30 | 
5" 
N 


\ \ 
Tools Search | 
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NOT المعامل‎ © 


يستخدم هذا المعامل مع المفاهيم المرتبطة في الدلالة والتي تشمل علاقات 
التشابه أو التداخل الهرمي أو التوارث الهرمي» ويعني ماعدا أو باستثناء» ويشير إلى 
استبعاد الصفحات التي تعالج المصطلحات الواردة بعد المعامل NOT‏ من قائمة 
النتائج المسترجعة. 


Human AND Origin AND Transplant NOT kidney مثال:‎ 


تشير هذه الاستراتيجية إلى ضرورة استرجاع كل الصفحات التي تعالج موضوع 
زراعة الأعضاء للبشر مع ضرورة استبعاد عمليات زراعة الكلى من النتائج المسترجعة. 

ونظرا لكفاءة محركات بحث الشبكة العنكبوثية قامت العديد من شركات قواعد البيائات 
المتاحة على الخط المباشر بشراء محركات لكي تستخدمها كأداة أساسية لبحث قواعد 
بيانات النصوص ALLS‏ ومن أمثلة محركات البحث واسعة الانتشار في هذا المجال 
محرك البحث Fast‏ ومحرك البحث Vivisimo‏ حيث يتميز كل منهما بإمكانيات بناء العناقيد 
(التجميع للمتشابهات وتفريعها) Clustering‏ والتصنيف إلى .Categorization oLa‏ 


تمتيل المعرفة على الإنترنت 


Human 


kidney Origin 


Transplant 
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< 10.3 محركات البحث المتخصصة 


حاولت محركات البحث ملاحقة وتتبع التطور والنمو الهائل في الشبكة العنكبوتية 
ولكن يبدو أن ذلك أمر في غاية الصعوبة» إن لم يكن مستحيلاء هذا إضافة إلى 
التنوع الهائل في أنواع الوثائق والحاجة إلى أساليب أكثر فعالية قادرة على التعامل 
مع الموضوعات ذات الطبيعة الخاصة. وقد دعا ذلك إلى ظهور نوعية جديدة من 
محركات البحث GALI‏ عليها محر كات البحث المتخصصة Specialized Search‏ 
Engines‏ للتغلب على مشكلات التغطية التى تواجهها محركات البحث العامة. 
وتجدر الإشارة إلى أن ظهور لغة التكويد الوس Extensible Mark Up Language‏ 
]لكات اعد على رر ھا caplet‏ کے 

وتعتمد محركات البحث المتخصصة على نوع مميز من الزواحف يطلق عليه 
الزواحف المركزة Focused Crawler‏ حيث Lel‏ تركز أثناء عمليات تجميع صفحات 
الويب على مجموعة من المؤسسات التي لها اهتماماث موضوعية تدخل في 


الفصل العاشر 


المؤسسات وتجميع المواقع والصفحات التي تشملها تلك الخوادم إضافة إلى متابعة 
الصفحات والمواقع المرتبطة بها )2001 Ester & Kriegel,‏ 


ويمكن تعريف محركات البحث المتخصصة بأنها «تلك المحركات التي تقتصر 
في عملية التغطية والبحث إما على مجال موضوعي معين أو نطاق جغرافي محدد 
Domain name‏ أو نوع معين من الملفات مثل الوسائط المتعددة أو الملفات ال 
أو الصور.. الخ». وتتنوع المحركات المتخصصة فمنها محركات البحث التي تغطي 
نطاقا Lal a>‏ معينا Country and Regional search engines‏ - ويمكن الحصول على 
قائمة شاملة بمحركات البحث المتخصصة فى نطاقات جغرافية محددة من خلال 
الموقع “http://www.philb.com/countryse.htm‏ وتقتصر مجموعة المحركات التي 
يضمها هذا الموقع على البحث في دول أو أقاليم جغرافية معينة. بمعنى أنه يهتم 
بتجميع وبحث الخوادم في نطاقات جغرافية محددة. 

كما تشمل محركات البحث المتخصصة موضوعياً محركات تغطي موضوعاً 
محدداً كالطب مثل Medhunt- http://www.hon.ch/MedHunt‏ أو تقتصر على نوع 
معين من الملفات كالصور سواء الثابتة أو المتحر كة أو الصوت فيما يعرف بمحركات 
بحث الوسائط المتعددة -http://www.musicsearcher.com Jia‏ 


ويشير بريس )2003 (Price,‏ إلى أن محركات المتخصصة يمكن تقسيمها لأربع 
فدات أساسية هى: 


1. محركات بحث متخصصة في شكل أو موضوع معين والتي تمشل جزءاً 
من محركات البحث العامة. وهذا النمط موجودالآن في معظم محركات 
البحث العامة التي تتيح إمكانية بحث الملفات ذات الطبيعة الخاصة مشل 
الصور وملفات الفيديو» من خلال واجهة تعامل خاصة ومنها ما يتيح 
واجهات تعامل خاصة للأطفال تتمتع بإمكانيات تساعد على تنقية Filtering‏ 
elo‏ ال wie‏ الب ed gist all, bol‏ ا رفن 
أمثلة هذه النوعية ما يلي: 


تمتيل المعرفة على الإنترنت 


Google Images (images only) 
http://images.google.com 


يعمل هذا المحرك كجزء من محرك البحث Google‏ وهو متخصص فى بحث 
الصو ر المتاحة على SIRs‏ 5 

Lycos Pictures and Sounds - 

/http://multimedia.lycos.com 


Ask Jeeves For Kids 
/http://www.ajkids.com 


يقوم بالبحث عن المواد الخاصة بالأطفال مثل أفلام الكارتون والصور والمواد 
التعليمية وهو أيضاً كجزء من المحرك Ask Jeeves‏ 


Yahooligans 
/http://www.yahooligans.com 


تم تصميم هذا المحرك كجزء من محرك البحث Yahoo‏ وهو متخصص في مواد 
الأطفال من سن 7 إلى 12 عامأء وهو من أقدم محركات البحث المتخصصة للأطفال 
وقد تم إنشاؤه في مارس 1996. 

2 محركات بحث متخصصة قائمة بذاتها ولها برامج خاصة للزحف والتكشيف 
والبحث. وتركز في تغطيتها على مجالات موضوعية معينة أو أنواع معينة من 
الملفات مثل محركات بحث الوسائط المتعددة. ومن أبرز أمثلة هذه النوعية 
من المحركات ما يلي: 

Health On The Net: MedHunt 
/http://www.hon.ch/MedHunt 
MedicineNet.com 


http://www.medicinenet.com/script/main/hp.asp 


الفصل العاشر 


وهي محركات بحث متخصصة في مصادر المعلومات الطبية التي يشارك بها أكثر 
من 500 طبيب ومتخصص من دول مختلفة على رأسها أمريكا وكندا. 
3 محركات بحث تستخدم في البحث داخل الأدلة الموضوعية العامة حيث 
الموضوعي. وهذا هو النمط السائد في معظم أدلة البحث العربية التي تقدم 
إمكانيات للبحث مثل فارس نت والردادي والبوابة العربية وغيرها. 


4. محركات بحث متخصصة صّممت خصيصاً لكي تستخدم في بحث مواقع 
محددة تشتمل على قواعد بيانات خلفية يطلق عليها صفحات الخوادم 
النشطة Active Server Page‏ وتتولى هذه المحركات تلقي اسنتفسحارات 
المستفيدين وتحويلها إلى قواعد البيانات حتى يمكن الحصول على 
الإجابات وهو نمط سائد في كثير من مواقع الشركات والمؤسسات التي لها 
بيانات خاصة. وتجدر الإشارة إلى أن هذه الصفحات عادة ما يطلق عليها 
الصفحات الديناميكية .Dynamic Pages‏ مثال محرك بحث شركة Amazon‏ 
لتجارة الكتب http://www.amazon.com‏ هو متحرك بحث متخصص 
للبحث في قاعدة بيانات شركة Amazon‏ للتجارة في مصادر المعلومات من 
كتنب وغيرها. 


> 10.4 ها وراء المحركات 


Meta Search Engines 


تعد ماوراء المحركات واحدة من أحدث أدوات بحث واسترجاع مصادر 
Le eal Le gla‏ على الشركة المتكبوية في الوقنث الحالي. وتقرم هة CAS prea‏ 
بصفة عامة بتلقى استفسارات المستفيدين وإرسالها إلى مجموعة منتقاة من محركات 
البحث المستقلة. ثم تتلقى النتائج من هذه المحركات وتقوم بدمجها ومعالجتها ثم 
فرزها فى قائمة مرتبة Lid,‏ لخوارزميات الدمج والترتيب -Merging Algorithms—‏ 


تمتيل المعرفة على الإنترنت 


هذا إضافة إلى بعض العمليات الأخرى مثل تحليل الاستفسارات وترجمتها لكى 
Lath‏ مق القيمة المضافة لعمليات التشغيل التبادلى Jl -Introperability—‏ توفرها 
خوارزميات الدمج والترتيب )2000 .CYang, X. & Zhang,‏ 

وتتمثل المشكلة الرئيسة فى بناء ما وراء محركات فى ثلاثة تحديات أساسية هى: 


° اعبار محركات الببحك السعلة وتجتيعها led Jy tks lS‏ وفقاً 
٠‏ ترتيب وفرز النتائج المسترجعة. 
وفي ما يلي عرض للأسس والمعايير المستخدمة في بناء ما وراء المحركات في 
كل مرحلة من المراحل الثلاث السابقة: 


> 10.4.1 اختيار محركات البحث المستقلة وتجميعها 
في قائمة موحدة وترتيبها وفقاً لأولويات الدمج 
تعرف هذه العملية في الإنتاج الفكري المتخصص في مجال استرجاع المعلومات 
بعملية اختيار وفرز قواعد البيانات «Database Selection and Ranking‏ حيث يقوم 
الفريق في هذه المرحلة بتجميع قوائم شاملة بمحركات البحث المستقلة للاختيار 
من بينها وفقاً لأحد المعايير التالية )2004 (Mohamed,‏ 
d‏ : الذة لد ة في محركات Alsi Il 5 ull‏ 


Individual Search Engines Coverage 
في هذه الحالة يقوم فريق العمل بتجميع قائمة شاملة بأشهر محركات البحث‎ 
المتاحة وأكثرها شمولاً من حيث عدد الصفحات التي تم تكشيفها والمتاحة فعلياً‎ 


الفصل العاشر 


برنامج للفرز Program‏ 8 حيث يقوم هذا البرنامج بفرز قواعد البيانات وترتيبها 

تنازلياً من الأكثر شمولاً إلى الأقل فالأقل. ونظراً OY‏ محركات البحث المستقلة تُدوع 

في تغطيتها لمصادر المعلومات المتاحة على شبكة الإنترنت من حيث نوع صفحات 

المعلومات (مثل صفحات الويب» صفحات البي دي إف» صفحات الأوفيسء أو 

قواعد البيانات» الصورء الفيديوهات.. الخ) فتتم المقارنة بين هذه الأنواع المختلفة 

لر تب المح ر كات Lady‏ للاحساجات الأساسية لما وراء المجركات وليس السياسات 

المتبعة فى المحركات المستقلة. وتجدر الإشارة هنا إلى أنه توجد مصادر متعددة 

على ppt E‏ اعا د کن معن لا العا فى مر کات CE‏ 
الا و l odada‏ 

Search Engine Watch 

http://searchenginewatch.com 

Search Engine List 

http://www.thesearchenginelist.com 


Search Engine Market Share Worldwide | StatCounter Global Stats 


http://gs.statcounter.com/search-engine-market-share 
Query Load الانستفسار‎ gi معدلات الاستخدام‎ wll 


في هذه الحالة يتم تحديد عدد الاستفسارات التي توجه إلى كل محرك بحث 
Suto, ce‏ يا سن المعرك ا لتر اسار إلى الأقل ابعتسارا كنا أن عفن ها 
وراء المحركات تأخذ فى الاعتبار نسبة الاستفسارات الناجحة إلى نسبة الاستفسارات 
لفاك اا تكن Shad taal‏ وده الاب اناغ امو IS‏ ا EE‏ 
أو ما يعرف بملف اللوج Log File‏ في كل محرك مستقل على حدة. لكن من عيوب 
هذه الطريقة أنها تتطلب قدرا كيرا من التعاوث من المحركات المستقلة وهو أمر 
غير مرغوب فيه في تلك البيئة» نظراً للطبيعة التنافسية الشديدة التي تحكم هذا 
المجال. فالحصول على هذه الملفات قد يؤدي إلى الكشف عن أساليب تحليل 
الاستفسارات والخوارزميات المستخدمة في عمليات التكشيف والاسترجاع. هذا 
وإن كانت هذه الأمور من السهل الكشف عنها من خلال الفحص والتحليل الدقيق 
للنتائج المسترجعة والأساليب المفضلة لدى هذه المحركات في بناء استراتيجيات 


تمتيل المعرفة على الإنترنت 


البحث. ولعل أبرز نماذج التعاون في هذا المجال هو ما قدمته محركات البحث 
المستقلة (Excite, AltaVista and Ask Jeeves)‏ - للباحثين من ملفات بغرض 
pelos‏ والدراسة للتحرف إلى طببعة Late‏ الموجية إلى AS preall oda‏ 
ومن أمثلة الدراسات التى تناولت محركات البحث المستقلة بالفحص والتحليل ما 
يلي )2002 .(Mohamed, 2004; Meng & Lui,‏ 


Response Time وقت الاستجابة‎ III 


يتم قياس متوسط الوقت الذي يستغرقه كل محرك على حدة في إجراء البحث 
واستعراض النتائج» ثم يتم ترتيب المحركات وفقاً لسرعة الاستجابة من الأكفأ إلى 
الأقل كفاءة. هذا وإن كان الفارق بين محركات البحث من حيث وقت الاستجابة 
هو فارق غير محسوس. إلا أن مؤشر وقت الاستجابة عامل في غاية الأهمية بالنسبة 
Ly Leg plead‏ لسسع كات لر لما als‏ الا امن إجراء camel‏ فى أكتى ميق 
فيصر له مسقل الثاني فاد رع المح كات it all‏ وتر رای ple‏ رع La‏ 
وراء المحركات. وهذه الطريقة سوف تضمن كفاءة عالية من حيث سرعة الاستجابة 
ولكنها لا يمكن أن تضمن بأي حال من الأحوال كفاءة وفعالية المواد المسترجعة. 


. L مو هو‎ Ii كات‎ Ii وى من‎ 2 00 Ji عو قو يد النتائج‎ JV 
Individual Search Engines Results Evaluation 


ويشمل التقييم ثلاثة معايير أساسية من مقاييس التقييم في مجال استرجاع 
المعلومات وهى: 

الاستدعاء والدقة والترتيب أو الفرز. ويوجد العديد من الدراسات التى قارنت بين محركات 
البحث من حيث دقة النتائج المسترجعة. وتتسم هذه الدراسات بالمقارنة بين محركات 
ويعرف هذا الاتجاه في الأدبيات بالاتجاه العملي .Operational Approach‏ كما يوجد نوع 
آخر من الدراسات تولى المقارنة بين محركات البحث المستقلة عن طريق فصل عناصر 
المقارنة لتجربتها فى المعمل. ويعرف هذا الاتجاه بالاتجاه المعملى -Laboratory Approach‏ 


الفصل العاشر 


حيث تتم التجارب على عناصر معينة في محركات البحث دون العناصر الأخرى للتعرف على 
مدى تأثير ها في كفاءة ودقة الاسترجاع )2000 .(Yanh & Zang,‏ 


> 10.4.2 دمج النتائج المسترجعة 


Fusing or Combining Search Results 


توجد أربع طرق أساسية لدمج البيانات معروفة ومستخدمة في مجال استرجاع 
المعلومات. وهذه الطرق هى: 


-l‏ دمجالنتائج المسترجعة وفقاً لاستراتيجيات بحث متنوعة 


Fusing Different Search Strategies 


وتعتمد هذه الطريقة على التنويع في طريقة بناء استراتيجية البحث لنفس موضوع 
الاستفسار» حيث يتم توجيه هذه الاستراتيجيات المتنوعة للمحرك نفسه. ثم يتم دمج 
النتائج المسترجعة بعد استبعاد النتائج المكررة Results‏ 60مم0176113. بمعنى أنه عند 
توجيه استراتيجيات بحث متنوعة للمحرك نفسه يمكن الحصول على نتائج متنوعة 
ولكنها تدور في مجملها حول موضوع البحث الأساسي مع وجود قدر كبير من التداخل 
والتكرار بين نتائج هذه الاستراتيجيات المتنوعة. وقد أثبت كل من سيراسيفيك وكانتور 
(Saracevic & Kantor, 1998)‏ أن هذه العملية تساعد على استرجاع نتائج مختلفة ولكنها 
متقاربة» كما أن بعض هذه النتائج تكون صالحة والبعض الآخر يكون غير صالح. 

ll‏ دمج النتائج المسترجعة وفقاً لأساليب متنوعة لوزن المصطلحات 


Fusing According to Term Weighting Schemes 


في هذه الحالة يتم استخدام مجموعة موحدة من الوثائق في بناء قواعد SLL,‏ عدة 
las‏ لطرق متنوعة لوزن المصطلحات. ثم يتم توجيه الاستفسار نفسه لكل قاعدة بيانات 
على حدة» ثم يتم دمج النتائج المسترجعة من قواعد البيانات بعد استبعاد المكررات. 
وقد أكد لي أن استخدام أكثر من طريقة لوزن المصطلحات يؤدي إلى تحسين كفاءة 
الاسترجاع )1995 (Lee,‏ 


تمتيل المعرفة على الإنترنت 


lll‏ دمج النتائج وفقاً لأجزاء الوثائق ١!‏ كشفة 


Data Fusion According to Document Representation 


تعتمد هذه الطريقة على التنويع في أجزاء الوثائق المكشفة» حيث يتم إعداد 
قواعد بيانات مستقلة حسب الجزء المكشف من الوثيقة. فعلى سبيل المثال يتم 
تكشيف عناوين الوثائق فقط في قاعدة بيانات ويتم تكشيف المستخلصات في 
قاعدة بيانات أخرى. ويتم إجراء البحث في كل قاعدة بيانات على حدة: ثم تدمج 
النتائج المسترجعة بعد استبعاد المكررات» لتحديد مدى تأثير هذه الأجزاء في 
فعالية الاسترجاع. وقد اكتشف كاتزر وزملاؤه أن إجراء البحث على أجزاء متنوعة 
من الوثيقة يؤدي إلى استرجاع نتائج بنفس الكفاءة والفعالية» مما يؤدي إلى زيادة 
معدلات الدقة والاستدعاء عنددمج هذه النتائج )2982 .(Katzer, et. el.,‏ 


IV‏ دمج النتائج المسترجعة من نظم استرجاع متعددة 
Data Fusion According to Multiple Retrieval Systems‏ 
التكشيف أو بناء استراتيجيات البحث أو أجزاء الوثائق المكشفة. أما في هذا النموذج فيتم 
التنويع فى المصدر بأكمله. حيث يتم الدمج من مصادر متعددة Multiple Sources‏ وهذا 
استرجاع المعلومات 239.50. ومن الفروق الأساسية أيضاً أن الطرق الثلاث السابقة GAS‏ 
مجموعة موحدة من الوثائق» بينما يعتمد هذا النموذج على مجموعة مختلفة من الوثائق 
مع وجود قدر من التداخل والتكرار بين هذه المصادر المتنوعة )2004 (Mohamed,‏ 


وتجدر الإشارة هنا إلى أنه توجد أربع حالات لمجموعة الوثائق المكشفة تصلح 
لعملية دمج البيانات. وهذه الحالات هي )2000 :(Yang & Zhang,‏ 


Equivalent Case csi œ 


ء وهى الحالة التى تكون فيها الوثائق المكشفة فى كل قواعد البيانات واحدة 
دون أي اختلاف فيما بينها. 


الفصل العاشر 


Inclusion Case الاشتمال‎ l> œ 

ء وهى الحالة التى تكون فيها إحدى قواعد البيانات شاملة وقواعد البيانات 
og l‏ تمن lee‏ من الوثاقق النكشفة فى قاعدة ALA Libs‏ 

Disjoint Case الاختلاف‎ Jl- ° 

ء وهي الحالة التى لا يوجد فيها أي تشابه بين قواعد البيانات من حيث 
مجموعة الوثائق المكشفة. 

Overlapping Case حالة التداخل والتكرار‎ o 

٠‏ هي الحالة التي تتداخل فيها قواعد البيانات من حيث مجموعة الوثائق 
المكشفة. وهذه هى الحالة السائدة فى كل ما وراء المحركات المتاحة على 
شبكة الإنترنت. 


> 10.4.3 فرز وترتيب النتائج المسترجعة 
Results Merging / Ranking‏ 
تعد هذه الخطوة أكثر الخطوات أهمية في عملية دمج النتائج المسترجعة في ما 
وراء المحركات» حيث إن معظم هذه المحركات عادة ما تستخدم الوسائل والأساليب 
نفسها في الخطوتين السابقتين» بينما يعد الأسلوب المستخدم في مرحلة الفرز 
يستخدمان لتحديد الترتيب الأمثل للنتائج المسترجعة وهما: 
- التحميل والتحليل Downloading and Analyzing‏ 


Merging According to Logical Assumptions الترتيب و فقاً للافتراضات المنطقية‎ - 


وفي مايلي عرض لكل أسلوب مع التركيز على الخوارزميات المستخدمة 
ally‏ اذى عل 


تمتيل المعرفة على الإنترنت 


ا. اسلوب التحميل والتحليل 


يعرف هذا الأسلوب في أدبيات استرجاع المعلومات بأسلوب فحص أو تفتيش 
الوثائق Documents Fetching‏ ويعتمد هذا الإ لوت على تحميل الوثائق المسترجعة 
بأكملها أو أجزاء منها من خادم محرك البحث المستقل إلى خادم ما وراء المحركات. 
ثم يتم تحليل هذه الوثائق باستخدام وسائل متعددة لعل أشهرها حساب درجة التشابه 
Similarity Score‏ باستخدام طرق متنوعة لوزن المصطلحات Term Weighting)‏ 
Schemes (Meng & Liu 2002‏ وتستخدم درجة التشابه في ترتيب الوثائق حسب 
ارتباطها بموضوع الاستفسار» وحساب درجة التشابه بين مصطلحات الاستفسار 
والكلمات المكشفة من الوثيقة. ويوجد العديد من نظم التحميل والتحليل المتاحة 
LIE‏ ولعل أبرزها gGoiss, CORI, and CVV‏ . وتجدر الإشارة هنا إلى أن هذه 
النظم عادة ما تتضمن خوارزميات للاختيار والتحميل والتحليل والدمج في الوقت 
نفسه» حيث إنها عادة ما تتضمن كل الوظائف اللازمة لما وراء المحركات. 


ولعل أبرز مميزات أسلوب التحميل والتحليل هو الاعتماد على أسلوب موحد 
فى التحليل والترتيب بصرف النظر عن الخوارزميات التى تستخدمها المحركات 
المستقلة في الترتيب. ولهذا النموذج عيوب عدة» لعل أبرزها: 


2. أنه يتطلب مساحات تخزين كبيرة» حيث يتم تحميل الوثائق المسترجعة على 
3. يحتاج هذا النموذج إلى أنظمة استرجاع ذات كفاءة عالية لكي تقوم بعمليات 
التحليل والترتيب بفاعلية وسرعة» حيث إن عمليات البحث في المحركات 
المستقلة والتحميل والتحليل وبناء ملفات الوثائق واستبعاد المكررات وبناء القوائم 
الموحدة» ثم في النهاية استخدام أسلوب موحد لعرض النتائج المسترجعة» كل 


الفصل العاشر 


هذه العمليات لا بد أن تتم على الهواء* On the Fly‏ وهي عمليات معقدة ودقيقة 
إلى درجة بعيدة. ويصلح هذا النموذج ويعمل بكفاءة عالية في نظم التجميع على 
الخط المباشر Aggregator Online Systems‏ وهي النظم التي يقوم فيها المورد 
بتجميع أكبر عدد ممكن من قواعد البيانات» ويتيحها للاسترجاع على الخط 
المباشر. بالتالي فإن هذه البيئة تسمح بقدر كبير من التعاون بين قواعد البيانات 
المستقلة ونظام التجميع. ولعل أبرز نموذج لذلك ما يحدث في أدوات الاكتشاف 
مثل Summon, EDS, MUSE Discovery‏ وغيرها وهو ما لا يتوافر في بيئة الويب 
التي تقوم على التنافس الشديد بين محركات eon‏ 


Il‏ أسلوب الترتيب وفقاً للافتراضات المنطقية 


Merging Upon Logical Assumptions 


يعتمد هذا الأسلوب على استخدام الترتيب الأصلي للوثائق المسترجعة من 
المحركات المستقلة في إنتاج قائمة موحدة من خلال بناء خوارزميات فرز وترتيب 
تعتمد على الافتراضات المنطقية وتصلح أن تستخدم في ترتيب الصفحات المسترجعة 
بالاعتماد على البيانات المتوافرة من المحركات المستقلة عن تريب الصفحات 
وحجم قاعدة البيانات وأهمية تلك الصفحات بصفة عامة. ومن أبرز الخوارزميات 
المستخدمة في هذا النموذج: 

Interleave الحشو والإدراج‎ III 

تسد هلله الطريقة على رتبب قواعد FOL‏ قبا Lary LG‏ لمقايسى متعددة 
مثل شمول التغطية؛ دقة الاسترجاعء أو وقت الاستجابة. ثم يتم ترتيب الوثائق وفقاً 
لترتيب قواعد البيانات» حيث تأتي الوثيقة رقم 1 من قاعدة البيانات رقم 1 في 
الترتيب رقم 1 في القائمة الموحدة» تليها الوثيقة رقم 1 من قاعدة البيانات رقم 22 
ثم الوثيقة رقم 1 من قاعدة البيانات رقم 3» ثم الوثيقة رقم 2 من قاعدة البيانات رقم 
1» وهكذا إلى أن يتم الحصول على العدد المرغوب من الوثائق في القائمة الموحدة 
.(Meng & Liu 2002)‏ 


تمتيل المعرفة على الإنترنت 


ويستند نموذج الحشو والإدراج على افتراض أن الوثيقة المسترجعة من محرك 
بحث أكثر أهمية ربما تكون أفضل من وثيقة أخرى لها الترتيب نفسه» واسترجعت 
من محرك آخر أقل أهمية. ومصطلح أهمية هنا يشير إلى موقع محرك البحث في 
قائمة المحركات المستقلة. 


۷. تحويل أرقام الوثائق إلى رقم تشابه عام 
Convert Document Rank to Global Similarity Scores‏ 


قام لي بتصميم نموذج لترتيب القوائم النهائية يعرف باتجاه درجة التشابه. 
ويستخدم هذا النموذج الترتيب الأصلي للصفحات الذي تنتجه المحركات المستقلة 
من أجل ترتيب قوائمها في إنتاج القائمة الموحدة. ويعتمد هذا النموذج على المعادلة 
التالية )1997 (Lee,‏ 


والافتراض الأساسى هنا أن الوثيقة المسترجعة ضمن عدد أكبر من الوثائق أفضل 
من وثيقة أخرى لها الترتيب نفسه ومسترجعة ضمن عدد أقل من الوثائق. فعلى سبيل 
المثال» فإن الوثيقة رقم 1 المسترجعة ضمن آلف وثيقة تعد أفضل من وثيقة رقم 1 





ترتي - الوثية . 5 1 
درجة التشابه = -1 
عدد الوثائق il‏ وو : و من /١‏ كا هو هو 1 3 


كما قام كل من يونو ولي بإعداد معادلة لتحويل رقم الوثيقة المحلي Local Rank‏ 
Score‏ إلى رقم تشابه عام Global Similarity Score‏ من خلال تطبيق المعادلة التالية 
.CYuwono & Lee, 1996)‏ 














(a)‏ على الهواء On The Fly‏ تعني أن المستفيد على اتصال مباشر بالخادم الذي يقوم بأداء 
كل هذه العمليات المذكورة. 


الفصل العاشر 


نفترض أن لكل استفسار فى ترثيب محرك الببحث Di‏ هو olari‏ ننا هو ثرثيب 
آخر قاعدة بيانات فى القائمة» 1 هو الترتيب المحلى للوثيقة المسترجعة؛ ع هى درجة 
التشابه العام. والمعادلة المستخدمة في ترتيب القائمة النهائية: 
g=1-(r-1)* Fi‏ 
حيث إن ۴ هى: 
(Fi = (rmin) / (m * ri‏ 
وإن m‏ تمثل العدد المرغوب من الوثائق فى القائمة النهائية. 
فعلى سبيل المثال نفترض وجود قاعدتي بيانات DI‏ و02 ونفترض أن ترتيبهم 0.2 = ۲1 
و0.5 = 12 ونفترض أن العدد الكلي المطلوب من الوثائق هو أربع وثائقء بالتالي فإن: 
rmin = 0.2 , F1 = 0.25, F2 =1, m - 4‏ 
Lady,‏ للمغادلة فان الركاقق اغلات الأولى فى D1‏ سوق ple Opler,‏ درجات 
St te 05 0.75 1 als‏ والوثاقق oO‏ ين Gy D2‏ يحصلون 
على درجات تشابه 1 على التوالي. من ثم فإن القائمة النهائية سوف تتضمن 
ثلاث وثائق من D2‏ ووثيقة واحدة من DI‏ هم على التوالي: 1 1 0.9 0.8. 


> 10.4.4 نماذج لما وراء المحركات المتاحة على شبكة الإنترنت 


لقد ظهر العديد من أدوات البحث التي تستخدم تقنية ما وراء المحركات خلال 
الأعوام القليلة الماضية. ويمكن الوصول إلى قوائم شاملة بتجارب بناء ما وراء 
المحركات من موقع رصد ومشاهدة تطورات محركات البحث: 


Search Engine Watch http://searchenginewatch.com 


وسوف نستعرض lad‏ يلي نماذج لأفضل التجارب لبناء ما وراء المحركات. 


اشتملت صفحة Search Engine Watch ola pledi‏ فى فبراير 2018 على 
1 أداة بحث تستخدم تقنية ما وراء المحركات. بعض هذه الأدوات تعرض قائمة 


تمتيل المعرفة على الإنترنت 


شاملة بمحركات البحث المستقلة المرشحة للبحث Startpage, DuckDuck js‏ 
Go, Dogpile‏ والبعض الآخر لا يعرض المحركات المستقلة المشاركة فى ما وراء 
المحركات مثل, Profusion Excite‏ حيث تستخدم هذه المحركات (ile Le‏ للبحث. 
ومع ذلك يمكن الوصول إلى القائمة المستخدمة في البحث من خلال خيارات 
البحث المتقدم .Advanced or Customized Search Options‏ 


وبمراجعة أبرز النماذج المتاحة لما وراء المحركات أتضح أن المحرك”© Dogpile)‏ 
(http://www.dogpile.com‏ لا يقوم بدمج التتائج المسترجعة» إنما يستعرض نتائج كل 
محرك مستقل على حدة» بينما يقوم كل من Startpage and Mamma‏ بدمج النتائج من 
خلال استخدام المكررات في ترتيب القائمة النهائية» حيث يتم الدفع بالوثائق التي تظهر 
في أكثر من محرك بحث مستقل إلى قمة القائمة. بالتالي فإن الوثيقة التي تظهر في ثلاثة 
محركات تسبق وثيقة أخرى ظهرت في محركين فقط. وتقوم أداة الح MetaCrawler)‏ 
(/http://www.metacrawler.com‏ بجمع درجة تشابه الوثائق المكر رة بالتالي تحصل 
الوثائق المكررة على درجة أعلى من الوثائق الفريدة .Unique Documents‏ 

وتعتمد أداة البحث Profusion (http://www.profusion.com/index.htm)‏ على 
وزن المصطلحات» حيث يتم استخدام كل من درجة التشابه المسترجعة من المحركات 
النسظلة والدرجة الى خضل عليها pes‏ البحنث المسشل فى مرحلة تريب المحركات 
المستقلة. ولكن المشكلة الأساسية في هذه الطريقة أنه ليست كل المحركات المستقلة 
تسترجع الوثائق مصحوبة بدرجة التشابه» ولكنها تسترجع الوثائق مرتبة فقط دون أي 
معلومات إضافية عن الدرجة التي حصلت عليها كل وثيقة. بالتالي يتطلب استخدام هذه 
المعادلة تعاون المحركات المستقلة مع ماوراء المحركات )2001 (Callan..Connel,‏ 


أما أداة البحث ميتاجير (MetaGer) http://meta.rrzn.uni-hannover.de‏ فتعتمد 
على نظام التحليل والتحميل لترتيب القائمة النهائية. حيث تستخدم الترتيب الأصلي 
للوثائق المسترجعة من المحركات المستقلة إلى جانب تردد المصلحات فى عناوين 
تلك الوثائق» أو ما وراء البيانات Metadata‏ أو ملخص الوثيقة. كما تعتمد أداة البحث 
5 على نظام التحليل والتحميل» حيث يتم تحميل الوثائق بالكامل على 


الفصل العاشر 


خادم ما وراء المحركات ثم تحليلها وبناء الكشافات. وتجدر الإشارة هنا إلى أن 
أداة Inquiries tJ‏ تعتمد على تردد المصلحات إضافة إلى تقارب المصلحات 
Term Proximity‏ من أجل ciy‏ القوائم النهائية. 

وتستخدم أدوات ما وراء المحركات بكثافة في مواقع حجز الفنادق وشركات الطيران» 
حيث تمكن تلك الأدوات من البحث بكفاءة في محركات البحث لشركات الطيران 
والفنادق لتقديم أفضل عروض الشراء الخاصة بتذاكر الطيران وعروض الفنادق. 


< 5 بوابات الويب 
Web Portals‏ 


يوجد عدد كبير من المصطلحات المستخدمة للدلالة على مفهوم بوابات الويب 
منها فهارس الإنترنت «Internet Catalogs‏ والمداخل Gateways‏ والبوابات «Portals‏ 
والبوابات الموضوعية Subject Portals‏ . .الخ. وتشير هذه المصطلحات إلى مجموعة 
الأدوات التي تسعى إلى تنظيم مصادر المعلومات المتاحة من خلال تقسيمات 
موضوعية شاملة بحيث تشتمل البوابة على جميع أنواع المصادر والخدمات التي 
يحتاج إليها المستفيدون من خدمات الشبكة العنكبوتية مثل خدمات بريد إلكتروني» 
دردشة» قوائم خدمات وقوائم بريدية» المواد الإخبارية» أسعار العملات» أحوال 
الطقسء إلى جانب قوائم موضوعية بمصادر المعلومات المتاحة من خلال البوابة 
إلى جانب محرك يتيح إمكانية البحث في البوابة. وإلى جانب التنوع في الخدمات 
التي تقدمها البوابات للمستفيدين منهاء نجد أن هذه المواقع عادة ما تتضمن برامج 
تساعد على تحليل استخدامات المستفيدين Web Usage Analyzer‏ وتساعد على 
تحليل التوجهات بغرض بناء ملفات سمات المستفيدين User Profiles‏ ويمكن من 
خلال هذه الملفات التعرف إلى احتياجات المستفيدين pally‏ بها بالتالي اختيار 





Big Search Engines Index--- http://www.search-engine-index.co.uk (1)‏ 
(2) ملحوظة المحرك Dogpile‏ قام بتغيير استراتيجيته للدمج والفرز في شهر يوليو 2005 حيث 
أصبحت تعتمد على عدد مرات النقر على الصفحة وفتحها فى كل محرك مستقل. 


تمتيل المعرفة على الإنترنت 


المصادر المناسبة لكل مستفيد من المستفيدين من الموقع. ويمكن أن تقوم تلك 
المواقع باستخدام تكنولوجيا الدفع Pushing Technology‏ إلى المستفيدين من 
الموقع. ويمكن أن تتم عملية الدفع عبر خدمات البريد الإلكترونى التي توفرها تلك 
المواقع أو إلى الصفحات الأمامية للمستفيدين من هذه المواقع كما يمكن أن يتم 
الدفع إلى دوسيهات خاصة للمستفيدين من هذه المواقع. 

من ثم فالبوابات عادة ما تيسر لمستخدمي تلك المواقع كل أنواع الخدمات التي 
يحتاجون إليها بصورة تفاعلية مما يوفر كل احتياجات المستفيد من خدمات ومصادر 
الشبكة العتكبرتبة:؛ وفى مقابل ذلك تسعى البوانات إلى جذب الش ر کات الى تسعى 
إلى الإعلان عن منتجاتها وخدماتها لتحقيق الأرباح من خلال تلك المواقع حيث إنه 
من المعروف أنه كلما زاد عدد مستخدمي الموقع تهافتت الشركات على الإعلان عن 
خدماتها ومنتجاتها من خلال هذه المواقع )2005 (Miller,‏ 


.CYakal, 2005) 


> 10.5.1 البوابات العامة 


General Portals 


يقدم هذا النوع من البوابات خدماته لقطاع عريض من المستفيدين من الشبكة 
العنكبوتية بصرف النظر عن النشاط أو التتخصص الموضوعي أو المجال الجغرافي 
للصفحات التى تغطيها البوابة. وعادة ما توصف هذه النوعية من البوابات بأنها 
بوابات أفقية Horizontal Portals‏ حيث إنها تعمل على نطاق أفقي سواء من حيث 


التغطية الموضوعية أي تغطي كل مجالات المعرفة البشرية أو على النطاق الجغرافي أو 





Inquiries (1)‏ لم يعد متاحاً على الويب وهو أداة بحث أعدها كل من لورانس وجيل لتحليل 
معدلات الزيادة فى الويب وسرعة محركات البحث فى التغطية. 


الفصل العاشر 


العمري. بمعنى أنها غير متحيزة لمنطقة جغرافية أو فئة عمرية أو حتى جنس معين. 
وتشتمل هذه النوعية من البوابات على خمس فئات من الخدمات هى: 

12.1 محرك بحث يسمح باسترجاع صفحات ومصادر المعلومات التي تم 

2 الأدلة الموضوعية التي تقوم من خلالها البوابات بعرض لمجموعة منتقاة 

3 خدمات التواصل وتشمل خدمات البريد الإلكتروني والدردشة والقوائم 
البريدية وقوائم الخدمات. 

4 الخدمات الصحفية وتنضمن مجموعة من المواد الإخبارية التي تساعد 
المستفيدين من البوابة على التعرف إلى أهم التطورات في كل المجالات 
وفقاً لاهتماماتهم المحددة في ملف سمات المستفيدين. فإذا كان المستفيد 
من المهتمين بلعبة كرة القدم تبث هذه الصفحة مجموعة المواد الإخبارية 
الخاصة بلعبة كرة القدم Lol‏ إذا كان من المهتمين بالسياسة فتشتمل هذه 
الصفحة على مجموعة من الأخبار السياسية. 

5 التجارة الإلكترونية Electronic Commerce‏ حيث تشتمل البوابات على 
من خلال إمكانيات التسوق الإلكترونى -Electronic Shopping‏ 

6 المواد المرجعية حيث تتضمن هذه المواقع إمكانيات الحصول على 
المعلومات المرجعية من المصادر المختلفة مثل درجات الحرارة» أسعار 
wo eel!‏ اتجاهات البورصات» قواميس لغوية وغيرها من المصادر التى 
تساعد على الإجابة عن التساؤلات السريعة والمحددة مثل: ما هى درجة 
الحرارة المتوقعة في مدينة نيويورك في الأيام الثلاثة التالية. 

12.7 المسابقات والاستفتاءات: حيث إن هذه المواقع عادة ما تقوم بعمل 
مسابقات حول موضوعات معينة واستفتاءات لاستطلاع رأي المستفيدين 
حول موضوعات مختلفة سياسية ورياضية واقتصادية وغيرها. 


تمتيل المعرفة على الإنترنت 


ومن أمثلة البوابات العامة التى تغطى مختلف مناحى الحياة بوابة مايكروسوفت 
العربية /http://www.arabic.arabia.msn.com‏ وبوابة ياهو www.yahoo.com‏ وبوابة 
جوجل www.google.com‏ وبوابة جو Galaxy www.galaxy. il » Www.go.com‏ 


/http://www.excite.com il » » com‏ وغيرها. 


> 10.5.2 البوابات المتخصصة 
Specialized Portals‏ 


يسعى هذا النوع من البوابات إلى خدمة جمهور بعينه له سماته الخاصة سواء 
كانت سمات لغوية» حيث توجد بوابات بلغات معينة مثل بوابة العرب http://‏ 
ales /www.arabsgate.com‏ مكتوب chttp://www.maktoob.com ipp‏ 
والبوابات المتخصصة في مجالات موضوعية معينة مثل بوابة إسلام أون لاين http://‏ 
www.islamonline.net/english/index.shtml‏ بوابة الحاسب الآلى http://www.‏ 
/thecomputerportal.com‏ البوابة الصحية Los Jhttp:/hwww.thehealthportal.com‏ 
ظهر في الآونة الأخيرة العديد من البوابات الحكومية التي تقدم من خلالها خدمات 
الحكومات الإلكترونية Electronic Government Services‏ مشل بوابة الحكومة 
الرقمية المصرية http://www.egypt.gov.eg/arabic‏ بوابة الحكومة الرقمية الأمريكية 
/FirstGov http://www.egypt.gov.eg/arabic‏ بوابة حكومة دبي الذكية http://www.‏ 
.dubai.ae/ar/Pages/default.aspx‏ ويشار إلى هذه البوابات الموضوعية بمصطلح 
البوابات الأفقية Vertical Portals‏ في مقابل البوابات الرأسية العامة. 


يمكن الحصول على قائمة بالبوابات الموضوعية من خلال موقع البوابات الأفقية 
-http://www.verticalportals.com‏ 

وقد ظهر في الآونة الأخيرة نوع جديد من أدوات البحث والاسترجاع يعرف 
بالأعوان الذكية Intelligent Agent‏ التى تسعى إلى توظيف تكنولوجيا الذكاء 
الامنطناضي لا ن بيه Pl pally‏ هير تكن من ارف إلى TA‏ 
المستفيدين من خلال ما يقوم به من عمليات وما يصله من رسائل بريد إلكتروني 


الفصل العاشر 


ومايقوم بفتحه من صفحات ويببا. ويرى الخبراء في موقع Search Engines‏ 
Watch www.searchengienewatch.com‏ ومو قع (www.w3c.org)‏ أن هذه الأعو ان 
الذكية تسعى إلى توظيف إمكانيات لغة التكويد الموسعة eXtensible Mark Up)‏ 
Language (KML‏ فى بناء أدو ات بحث دلالية Semantic Searching‏ لكي تتوافق مع 
الجيل الجديد من الشبكة العنكبوتية الذي يعرف بالويب الدلالي -Semantic Web‏ 


وعلى الرغم من تنوع طرق الوصول إلى المعلومات على الشبكة العنكبوتية إلا أن 
5 من المستفيدين من الشبكة العنكبوتية يصلون إلى المعلومات من خلال البحث 
فى محركات البحث. وقد أوضحت دراسة التى أعدها معهد ستانفورد للدراسات 
الكمينة أن البحث واسترجاع المعلومات ge EE OLE‏ سيك الخدمات 
المستخدمة بكثافة على شبكة الإنترنت» بينما يأني البريد الإلكتروني في المرتبة 
الأولى )2004 (GVU,‏ 


وقد أشار كل من ني وابرنج في دراستهما إلى أن الإنترنت تعد اليوم مكتبة 
عامة هائلة تتيح العديد من الخدمات التجارية والمجانية جنباً إلى جنب. وأن 
أكثر الاستخدامات انتشارا الآن على شبكة الإنترنت يتمشل في البحث عن السلع 
والمنتجات» والهوايات» وشركات الطيران» والمعلومات العامة والذي غالبا مايتم 
من خلال محركات البحث. كما أوضحا أيضاً أن كل المستفيدين الذين تمت مقابلتهم 
أثناء إعداد الدراسة أكدوا أنهم نجحوا في واحدة أو أكثر من أنشطة جمع المعلومات 
اللازمة لاحتياجاتهم على الرغم من تنوع وتعقد الأدوات المستخدمة واختلاف تلك 
الاحتياجات )2000 Nie & Erbring,‏ 


الخلاصة أن تقنيات البحث والاسترجاع على الشبكة العنكبوتية هي أدوات لا 
غنى عنها للوصول إلى مصادر المعلومات المتاحة على هذه الشبكة. وتعد محركات 
البحث من أكثر الأدوات استقراراً وتطوراء وتوظف هذه المحركات أساليب متطورة 
لاسترجاع المعلومات إلى جانب أن هناك بعض الجوانب الجديدة في محركات 
البحث التي تجعل من استرجاع المعلومات على الشبكة العنكبوتية يختلف إلى حد 
ماعن نظم استرجاع المعلومات التقليدية. 


تمتيل المعرفة على الإنترنت 
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يشتمل هذا الفصل على مراجعة علمية تفصيلية للدراسات المتعلقة بتمثيل 
المعرفة IS mee‏ البحت والينات تكشيفها وفرزها في ope al Ley‏ خلال 
تحديد ملامح تلك البيئة والفرق بينها وبين غيرها من بيئات تمثيل المعرفة. ويركز 
الفصل بصفة أساسية على المنهجيات والقياسات المتبعة فى دراسات الويب. وقد 
كو تقسيع الذزاسات إلى #دراسات واقعية تعمل في إلبيقات التشغيلية؛ ودراسات 
معملية تتم في المختبرات وفي oly‏ اصطناعية» ثم تناول الفصل OLS‏ التكشيف 
وطرق دراستها. وسيتناول الفصل كل السبل الممكنة لدفع النتائج وترقيتها بمحركات 
البحث» إلى جانب عرض لطبيعة المشكلات التي تتناولتها الدراسات بغرض توضيح 
اتجاهات الإنتاج الفكري في هذا المجال إلى جانب طبيعة المناهج والأساليب 
المقبعة فى دراسة تلك المشكلات: وتجدر LEY‏ أن دراسات الريب CSL‏ ميخ 
coll pi‏ الا الي تبس إلى tee‏ عو امع مواق مي امن سيت ال 
وطبيعة الاستخدام وهو ما دعى إلى ظهور مصطلحات جديدة في الإنتاج الفكري 
المتخصص في مناهج البحث للإشارة إلى هذه النوعية من الدراسات والقياسات 
التي تتوافق معها من أهمها مصطلح قياسات الويب Web Metrics‏ 


> 11.1 التكشيف والفرز فى بيئة الويب 
WEB INDEXING AND Ranking‏ 
خلال الأعوام الأربعين الماضية مرت طرق وأساليب تكشيف واسترجاع 
المعلومات بمراحل متعددة وتطورت بشكل مذهل من خلال التجارب والاختبارات 
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التي أجريت عليها. ومع ظهور الشبكة العنكبوتية تم تطوير تلك الأساليب لكي 
تستخدم في تكشيف واسترجاع المعلومات من خلال محركات البحث ولكي تتوافق 
مع طبيعة البيئة الجديدة التي تعمل فيها هذه المحركات» حيث تم في بعض الأحيان 
تطويع هذه الأساليب» وفي أحيان أخرى تم توسيعها أو تغييرها بالكامل لكي تشمل 
طرقا جديدة للتكشيف والاسترجاع والفرز. 

يعتمد تكشيف الويب وما تحتويه من صفحات ومواقع على اختلاف أنواعها 
على أساليب التكشيف الآلي» حيث إنه الأسلوب الذي يتناسب مع طبيعة الويب 
من حيث الحجم Size‏ والاتساع «scalability‏ والتحديث Update‏ المستمر لمحتواها. 
وتعد محركات البحث هي الأداة الوحيدة في الوقت الحالي القادرة على التعامل مع 
الويب بهذه المواصفات. وتختلف محركات البحث من حيث طبيعة المواد التي 
Lyi‏ من مضاةر الويب ومن حت المضادر و الا سالب الفى E‏ فى ASS‏ 
اذك الدوات امات J‏ ااا ند حت القوراث الي هالت الموادة 
هذل اني افرع السار ASAI‏ تابهار Le ping‏ شر lel‏ لمعتل pM‏ 
تسترجعها محركات البحث عندما يتم بحث الاستفسار نفسه في أكثر من محرك في 
الوت تة 

كما تختلف محركات البحث من حيث الإجراءات التي تتبعها في تحديد حجم 
المادة المكشفة التي تتراوح ما بين التكشيف الانتقائي والتكشيف الشامل» حيث تعلن 
بعض المحركات صراحة أنها تكشف عدد N‏ من الحروف أو من الكلمات الأولى 
في الصفحات المكشفة» والبعض الآخر عادة ما يكون غامضا في هذه الناحية. كما 
أن بعض محركات البحث تقوم أولا ببناء مستخلص تشتقه من الصفحات المكشفة 
ثم تستخدم هذا المستخلص في تكشيف تلك الصفحات. 

ومن أمثلة الأساليب المستخدمة في التكشيف على الويب مايتم تطبيقه في 
محرك البحث EXCITE‏ الذي يدعي استخدام أسلوب الاشتقاق الذكي للمفاهيم 
Intelligent Concept Extraction‏ بالاعتماد على استخدام منهجية درجة التشابه 
Similarity Score Approach‏ التي تعتمد على وزن المصطلحات. وتجدر الإشارة 
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إلى أن هذا الأسلوب يكتشه كثب رمن الغموض نظراً لاعتماذه بضفة أساسية على 
المصطلحات كثيرة التردد» وهو ما يمكن خداعه ببساطة من خلال استخدام أساليب 
خداع محركات بحث Search Engines Spamming or Persuasion‏ التي تعتمد على 
G‏ إلى أساليب التحليل والتكشيف والفرز في المحركات بغرض دفع أو ترقية 
النتائج في محركات البحث .Search Engine Optimization‏ 

وتختلف محركات البحث فى أساليب وإمكانيات فرز المخرجات والتى تعتمد 
على إجراءات وأساليب ا المستخدمة بتلك المحركات» إضافة إلى نوع 
وحجم المعلومات المخزنة في ملفات البحث. ومن الطرق والأساليب المتبعة في 
فرز النتائج ما يلي )1996 .(Big Search Engine Index, 2002; Chu & Rosenthal,‏ 


1. الفرزوفقاً لتردد المصطلحات 


يعتمد هذا الأسلوب على تحديد درجة معينة لكل وثيقة تتراوح بين (صفر 
وواحد) وفقا لعدد مرات ظهور مصطلحات البحث في الوثيقة. فالوثيقة التي يظهر 
فيها مصطلحات البحث 5 مرات أفضل من وثيقة أخرى ظهر فيها مصطلح البحث 3 
مرات. وبالتالي فالوثيقة الأولى تسبق الوثيقة الثانية في الترتيب. كما يمكن دمج هذا 
الأسلوب مع حجم الوثيقة للتعرف على أهمية المصطلح في الوثيقة» ففي حالة وجود 
وثيقة مكونة من 1000 كلمة وظهر فيها مصطلح البحث عشر مرات» ووثيقة أخرى 
مكونة من 100 كلمة وظهر فيها مصطلح البحث 5 مرات. فبالدمج بين أسلوب تردد 
المصطلحات وحجم الوثيقة نجد أن الوثيقة الثانية أفضل من الوثيقة الأولى إحصائيا. 


2. الفرزوفقاً لمضاهاة لاا من مصطلحات البحث 


على سبيل المثال نفترض أن استراتيجية بحث تتكون من 7 مصطلحات جميعها 
كلمات بحثية (أي لم ترد في قائمة الاستبعاد). فالوثيقة التي تشتمل على كل 
المصطلحات الواردة في الاستفسار أفضل من وثيقة أخرى تشتمل فقط على ستة 
من هذه المصطلحات السبعة والتي تكون بالتبعية أفضل من وثيقة ثالثة تشتمل على 
5 مصطلحات فقط وهكذا. 


الفصل الحادي عشر 


3. مكان ظهور المصطلح 

تعتمد هذه الطريقة على تحديد موضع مصطلحات البحث في الوثيقة ثيقة» فالوثيقة 
التي تظهر فيها مصطلحات البحث في بدايتها مثل العنوان أو رأس الوثيقة يفترض 
أنها أفضل من وثيقة أخرى تظهر فيها مصطلحات البحث في وسط أو نهاية الوثيقة. 


4. تقارب المصطلحات 


شیر الى الوثائق ق التي تكون مصطلحات البحث فيها مجاورة لبعضها البتعض 
a,‏ عت الام أل مر رتك فرق سك على ممطلهات اة تى اة 
متفرقة من الوثيقة. 


5. استخدام الميتاداتا 


تعلن بعض محركات البحث صراحة أنها تعطي أولوية خاصة للوثائق التي تشتمل 
على وصف مسبق باستخدام معايير الميتاداتاء بينما يعلن عدد آخر من المحركات أنه 
يتجاهل الميتادانا تماماً فى عمليات التكشيف والفرز. 


6. عددالروابط 


dani Aa‏ ق أخرى 
الا الى tat glade‏ 4 امو ete ad ay‏ ا 
سلوب واحد في فرز النتائج» ولكنها عادة ما تستخدم أكثر من أسلوب للفرز في 
الوقت نفسه. وعادة ما تخفى المحركات الأسلوب الذي تستخدمه فى تكشيف وفرز 
النتائج. مع العلم أن هذه العمليات يمكن الكشف عنها من خلال الفحص الدقيق 
لأساليب التكشيف والفرز في محركات البحث. 


وتختلف بيئة استرجاع المعلومات على الشبكة العنكبوتية عن بيئة استرجاع 
المعلومات التقليدية فى العديد من الجوانب منها: -Huang, 2000; Rasmussen,(2003)‏ 
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Collection Size حجم المعلومات‎ .1 


فعدد الصفحات والمواقع المتاحة على الشبكة العنكبوتية ضخم جداً وفي تزايد 
مستمرء إضافة إلى أن هناك صفحات يتم حذفها وأخرى يتم تعديلها. ومن الجدير 
بالذكر أن هناك جزءا كبيراً جدا من الشبكة العنكبوتية غير مرئي Invisible Web‏ 
لأدوات البحث والاسترجاع التقليدية ويحتاج إلى أدوات خاصة للتعامل معه. وتنقسم 
صفحات المعلومات المتاحة على الويب إلى ثلاثة أنواع أساسية هي: الصفحات 
الثابتة Static Pages‏ والصفحات الديناميكية Dynamic Pages‏ والصفحات التفاعلية 
Interactive Pages‏ والفرق Lew‏ ببساطة أن الصفحات الثابتة لها مواقع يمكن لأي 
شخص الولوج إليهاء بينما الصفحات الديناميكية تحتاج إلى كلمات مرور وتحديد 
هوية أو إجراءات بحث مثل صفحات البريد الإلكتروني وقواعد البيانات» Lol‏ 
الصفحات التفاعلية فتحتاج إلى إجراء E‏ ار ای جو جاتب المستفيد حتى 
تظهر على الويب مثل مايحدث عندما نقوم باستفسار محركات بحث الشبكة 
العنكبوتية وتظهر لنا صفحة نتائج البحث» التي تعد في هذه الحالة صفحة تفاعلية 
تختفي بمجرد غلق أداة التصفح. 


Variability التنوع‎ .2 


يوجد تنوع كبير في الصفحات والمواقع المتاحة على الشبكة العنكبوتية من نواح 


متعددة مثل: 
s‏ الحجم Size‏ توجد صفحات لا تتعدى بضع كلمات وصفحات fra,‏ حجمها 
إلى ملايين الكلمات. 


ء هيكل البناء Page Structure‏ هناك طريقتان أساسيتان لبناء المواقع 
والصفحات هما البناء السطح Flat Structure‏ والذي يعتمد على سرد 
المعلومات بشكل تتابعي مع التقليل قدر الإمكان من الروابط الفائقة 
Hyperlinks‏ التي قد تتسبب في إرباك القارئ وقطع تركيزه. أما الطريقة الثانية 
فتعرف بالقوائم الساقطة Drop Down Menu‏ وهي الطريقة التي تعتمد على 
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استخدام الروابط الفائقة بشكل مكثف» بحيث يتم قراءة ومتابعة المعلومات 
من خلال قوائم أساسية تنتقل إلى قوائم أخرى. ويعد هذا النمط» من أهم 
الملامح المميزة للويب كبيئة لاسترجاع المعلومات, إلا أنه قد يحدث إرباك 
للمبتدئين في التعامل مع الشبكة العنكبوتية. 


التركيز Focus‏ يعتمد أسلوب الكتابة في بناء مواقع الويب على الأسلوب 
الصحفي الذي يحاول تقديم أكبر قدر من المعلومات في أقل مساحة ممكنة» 
إضافة إلى استخدام الروابط الفائقة للحصول على المعلومات المفصلة. 


الحودة Quality‏ حيث تعد جودة المعلومات المقدمة على الشبكة العنكبوتية 
من القضايا الشائكة التي تحتاج إلى بحث مضنٍ وشاق من جانب المستفيد 
للتأكد من صحة وسلامة المعلومات التي يحصل عليها من تلك الشبكة. 
فمن المعروف أن المعلومات التي تنشر على الشبكة العنكبوتية لا تخضع 
للمراقبة أو المراجعة وهو ما جعل من الشبكة العنكبوتية تحمل الكثير من 
المغالطات والمعلومات السطحية. لذلك تظهر الحاجة إلى معايبر لتقييم 
جودة المعلومات التي تقدمها مواقع الويب. وتوجد العديد من الدراسات 
التي تحاول وضع معايير لضبط جودة المعلومات المتاحة على الشبكة 
العنكبوتية بحيث يستطيع المستفيد تقييم المصادر التي يحصل Les‏ على 
المعلومات (فراج» سبتمبر 2003). 


الدقة Accuracy‏ تتميز الشبكة العنكبوتية بأنها بيئة ديمقراطية للنشر لا تخضع 
للرقابة أو التحكم» ما أدى إلى وجود تضارب كبير بين المعلومات المتاحة 
من خلالها وما يقدمه غيرها من المصادر. والغريب أن البعض يعتقد أن 
المعلومات المتاحة على الشبكة العنكبوتية أكثر دقة من غيرها من المصادر. 
والحقيقة أن الويب مثلها مثل غيرها من بيئات استرجاع المعلومات تطرح 
بيئة النشر التقليدية حيث يوجد بها مصادر إلكترونية يتم تحكيمها وحوكمتها 
بآليات صارمة للتحقق من دقة وجودة المعلومات» وبها المصادر الحرة مثل 
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الموسوعات المفتوحة التي تعتمد على إتاحة معلومات عامة والمدونات 
التي لا تخضع للرقابة أو التحكيم. 

٠‏ التنوع في أنواع الوثائق Wide Variety of Document Type‏ : فالوثائق المتاحة 
من خلال الشبكة العنكبوتية تشتمل على أشكال متنوعة مثل صفحات ومواقع 
الويب» ملفات البى دي إف PDF‏ الكتب» الدوريات» الرسائل الجامعية» 
صو ر وا ا ا 
في شكل رقمي. هذا إضافة إلى التنوع في الأدوات المستخدمة في إعداد 
هذه الوثائق مثل HTML, XML, XSL, JAVA SCRIPT, JAVA, Poles‏ 
..CSS, PDF Maker, Office Tools,..etc‏ 


3. التكرارفي الوثائق والمواقع المتاحة على الشبكة 

كثير من صفحات ومواقع الويب متاحة من خلال أكثر من نخادم واحد حيث نجد 
الصفحة نفسها متاحة بالمحتوى نفسه من خلال أكثر من موقع في البلد نفسه أو في 
بلدان مختلفة» مما يؤدي إلى خلط كبير عند التكشيف والاسترجاع كما يؤدي إلى ارتفاع 
معدلات التداخل والتكرار بين صفحات ومواقع الويب. ويعد مقياس التداخل والتكرار 
من المقاييس المهمة المستخدمة في قياس فعالية أدوات البحث والاسترجاع المتاحة 
على الشبكة العنكبوتية )1999 (Hawking; Craswell; Thistlewaite; & Harman,‏ 


4. الروابط الفائقة Hyperlinks‏ 

incl E عضي ی من‎ Ua السك ااي‎ ISI ple do eal G30 gl 
الملامح الخاصة‎ i والتي تعدمن‎ Network Of Hyperlinks isti من الروابط‎ 
التي تميز الشبكة العنكبوتية عن غيرها من بيئات استرجاع المعلومات مثل قواعد‎ 
Pies رظ ق اعدالانات اا‎ LA een tase انات الاير خر اة‎ 
بالنصوص الكاملة للدوريات الإلكترونية وغيرها من مصادر المعلومات الإلكترونية.‎ 
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5. المعالجة القبلية Preprocessing‏ 


تحتاج الصفحات ومواقع الويب المتاحة من خلال الشبكة العنكبوتية إلى معالجة 
قبلية Preprocessing‏ بسبب حجمها وطبيعتها الديناميكية المتغيرة» الأمر الذي يتطلب 
روعي فار ار رای کی یل ای Bile 6 wily,‏ 
التكشيف والاسترجاع. ويقصد بالمعالجة القبلية ما تقوم به الزواحف أو العناكب 
Spiders or Crawlers‏ من زيارة خوادم الشبكة العنكبوتية بغرض تجميع الصفحات 
ومتابعة تحديثها وهو أمر من الصعب أن يتم من دون برامج خاصة للمعالجة القبلية 
لاوقا Y‏ او المكييات E‏ بن كيل 

Queries الاستفسارات‎ .6 


غالباً ما يكون حجم الاستفسارات التي توجه إلى أدوات البحث على الشبكة 
العتكبوتية أقضصر سن غيرهنا فى LS‏ التقليدية. وقد أثبت العديد سن الدراسات 
أن OL LT‏ المسععدمة على الک E Ly Sel‏ سان کان إلى 
ثلاث بمتوسط 2.4 كلمة في الاستفسار الواحد أما الاستفسارات التي تستخدم في 
الاسترجاع من قواعد البيانات سواء كانت ببليوغرافية أو نصية فتتراوح ما بين 15-12 
مصطلح = المتوسط )2000 Jansen; Spink; Pfaff,‏ 


User Behavior نسلوك المستفيدين‎ .7 


يختلف سلوك المستفيدين في التعامل مع بيئة الويب عن سلوكهم في التعامل 
مع غيرها من مصادر المعلومات مثل المكتبات وقواعد وبنوك المعلومات. فالويب 
تتميز بأنها بيئة تفاعلية إلى جانب طبيعتها الترابطية الديناميكية التي نتجت عن 
استخدام النصوص الفائقة إضافة إلى طبيعتها الديمقراطية والعالمية والاجتماعية: 
ما أعطاها أبعاداً سياسية وثقافية واجتماعية وميزات إضافية أخرى تفوق غيرها من 
مصادر المعلومات التقليدية )2001 .(Cothey,‏ 
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> 11.2 ملامح الويب 

توصف الشبكة العنكبوتية بأنها فضاء واسع وموزع يتضمن LS‏ هائلاً من مصادر 
المعلومات» كما توصف بأنها مكتبة عامة ضخمة. كما وصفتها جرفيث بأنها مصدر 
معلومات متاح LS‏ لملايين من البشر في جميع أنحاء العالم على الرغم من أنها 
تفتقد إلى الملامح الرسمية للمكتبة والغرض والاتجاه المحددين للمكتبات اللذين 
بالنسبة لعدد كبير من المستفيدين أكبر وأهم مصدر معلومات إلى جانب أنها أكثر 
المصادر إقناعاً بالنسبة للمستفيدين (Griffiths,1999)‏ 


على الرغم من أن حجم الويب غير مؤكد ولا يمكن التعرف عليه بدقة عملياًء إلا 
أن هناك بعض التقديرات لعدد الأجهزة المضيفة (Hosts)‏ وعدد صفحات المعلومات 
dot!‏ على هذه الأجهزة المضيفة. إضافة إلى ole‏ غدة بمعدلات نمو الشبكة 
العنكبوتية (انظر على سبيل المثال حيث استخدم براي البيانات المشتقة من BLES‏ 
النصوص المفتوحة Open _ Text Index‏ لعام 1995 حيث أنتج مساحة مرئية ثلاثية 
الأبعاد Three - Dimensional Visualization Area‏ للشبكة العنكبوتية يعتمد على 
رؤية مؤشرات للمواقع Pointer to Sites)‏ والحجم أو عدد الصفحات في الموقع 
الواحد وعدد المؤشرات التي تخرج من الموقع إلى مواقع أخرى بالتالي فهو يعتمد 
على ثلاثة جوانب أساسية هى )2000 (Bray 1996; Diligenti, et el.,‏ :_ 


— عددالروابط الخارجية External Hyperlinks‏ التی تشير إلى الموقع. 


.Number of Web Pages عددالصفحات فى الموقع الواحد‎ - 


- عدد الروابط التي تشير إلى مواقع أخرى داخل الموقع Internal Hyperlinks‏ 

يوجد العديد من الدراسات التي تناولت ملامح الويب على أساس أنها كتلة 
أو مجموعة «Corpus Es‏ حيث قام وودروف وزملاؤه بتحليل أكثر من 206 آلاف 
(Inktomi Web Crawler)‏ للتعرف على pia Y]‏ السائدة للمو اقع «Domain Names‏ 
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حجم الوثائق» الأكواد المستخدمة في أعداد الصفحات» عدد الروابط الفائقة 
وغيرها )1996 (Woodruff, et. el,‏ كما اختبر جرفينستيت ونوش الطبيعة متعددة 
اللغات للويب Multi lingual‏ باستخدام طرق تعتمد على تردد المصطلحات77/020 
Frequencies‏ في اللغات المختلفة فعلى أساس تحليل قاعدة بيانات AltaVista‏ وجد 
أن اللغة الإنجليزية تعد أكثر اللغات شيوعاً على الويب وأن SLU‏ الأخرى في تزايد 
مستمر )2000 .(Grefenstette; & Nioche,‏ 


وقد حاولت مجموعة من الدراسات وصف الويب في إطار نظري» فعلى سبيل 
المثال تناول البرت وجونج وبراباسي البناء الطوبولوجي Topological Structure‏ للويب» 
حيث قاموا بتحديد المعامل d‏ على أنه أقل عددا من الروابط URL Links‏ التي تحتاج 
إليها عند الإبحار بين زوج من الوثائق. فتوصلوا إلى أن متوسط علد الروابط يصل إلى 
9 رابطاًء وهو ما فسروه بأنه قطر مساحة الدائرة التي تربط بين أي صفحتين على الويب 
بالاعتماد على قياس أصغر مسافة بين أي نقطتين على الشبكة العنكبوتية والتي JES‏ في 
الحد الأدنى من الروابط بينهما )1999 l l (Albert; Jeong & Barabási,‏ 


وقام برودر وزملاؤه بدراسة الويب على أنها شكل هندسي مكون من صفحات 
أطلقوا عليها نهايات طرفية (Nodes)‏ وروابط فائقة Hyperlinks‏ أطلقوا عليها أقواس 
الدائر ares‏ وكان ناتج دراستهم رسم شكل يمثل طبيعة الوصلات التي تربط بين 
صفحات الويب وبعضها البعضء وقد أوضح هذا الشكل أن هناك نقاطا مركزية 
Central Core‏ وهي نقاط بها عدد هائل من الروابط بحيث تشمل الصفحات القادرة 
على أن تتصل ببعضها البعض من خلال الإبحار باستخدام الروابط المتاحة في هذه 
النقاط المركزية» وقاموا بمقارنة نتائج دراستهم مع نتائج دراسة البرت وزملائه إلا 
أنهم وجدوا أنه لا يوجد مسار مباشر يربط بين 75/ من النهايات الطرفية (الصفحات) 
.Broder, et. el, 2000‏ وقد استخدم كل من هيوبرمان وادميك )& Huberman‏ 
(Adamic, 1999‏ بيانات موقع أليكسا Alexa- www.alexa.co‏ ومحرك بحث 
أنفو سيك Uinfoseek) WWW.Infoseek.Go.com‏ للتعرف إلى الطبيعة الديناميكية 
لزيادة صفحات الويب واكتشفا أن توزيع حجم المواقع يتبع قانون القوة Power law‏ 
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والذي يظهر في شكل خطي على أساس 106-108 أو لوغاريتم - لوغاريتم (وهو 
عبارة عن رسم بيانى ثنائي الأبعاد يوضح علاقة لوغارتيم بلوغاريتم آخر). كما 
أوضحا أيضاً أن عدد الزوار GY‏ موقع والروابط التي تشير إلى هذا الموقع أو تربط 
الموقع بمواقع أخرى تتبع أيضاً قانون القوة. 

ومن الواضح أن هذه التوزيعات مفيدة جداً حيث إنها يمكن أن تساعدنا على 
الو بطيعة oe col Fall‏ الروابط اا ويتعدلات الزيادة فى هات cea‏ 
إلى ساني سكلوك السشيدين عد عامل مم تلك امشات 


وقد ساعدت الطبيعة الديناميكية للويب والتى تتمثل فى معدلات الزيادة والتغير 
والتبديل سواء في محتويات الصفحات أو Peet‏ إلى جانب الإلغاء والحذف 
المستمر للعديد من الصفحات على أن أصبحت الويب بيئة فريدة تتميز بشكل كبير 
عن بيئة استرجاع المعلومات التقليدية. فمعرفة الطبيعة الديناميكية للويب يتيح مؤشر 
قوي يساعد محركات البحث في التعرف إلى الوقت المناسب لزيارة وإعادة زيارة 
الخوادم Server Re- Visiting‏ بت JE‏ الروبوت أو غيره من أدوات التجميع لتحديث 
كشافاتها وقواعد بياثاتها. 


وتوجد مجموعة من الدراسات التي حاولت التركيز على معدلات التغيير والتعديل 
والتحديث في صفحات الويب» ومنها ما قام به دوجلاس وزملاؤه بتحليل معدلات 
الاستجابة للمحتوى الكامل لصفحات إحدى الشركات التي لها موقع على الويب من 
خلال استخدام طلبات تعتمد على برتوكول تحويل النصوص الفائقة HTTP‏ ووجدوا 
أن 16.5 / من المصادر التي تم الوصول إليها على الأقل مرتين تم تحديثها في كل مرة 
تمت زيارتها )1997 .(Douglis, et. el,‏ وقام كوهلر بدراسة مدى بقاء صفحات الويب 
من دون حذف أو تغيير» حيث اختبر مدى البقاء ومعدلات التغير لعينة من صفحات 
الويب ومواقع الويب. ووجد أن حوالي 12 / من مواقع الويب و20 / من صفحات 
الويب فشلت في الاستجابة بعد ستة أشهر. وقد ازدادت إلى 18 / للمواقع 1.323 
للصفحات بعد عام Lely‏ وأن 96/ من الصفحات أجرت تعديلات في محتواها أو 
شكلها خلال 6 شهور وأن 9 من المواقع أدخلت تعديلات بعد عام واحد Koehler,)‏ 
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1999( . كما اختبر لورانس وزملاؤه عناوين أكثر من 100.000 مقالة متاحة في قاعدة 
بيانات Research Index‏ ووجدوا أن عدد المقالات التي لم تعد متاحة على الويب 
انخفض من 53 / عام 1994 إلى 23 / عام 1999 وأن متوسط عدد العناوين في المصادر 
العلمية المتاحة على الويب يتزايد بشكل كبير باستمرار إلا أنهم توقعوا أن يحدث ثبات 
ut‏ معدلات الزيادة مع نهاية عام 2005 )2001 -(Lawrence, et. el.,‏ 


أما برونجتون وسيبنكو فقد استخدما بيانات تجريبية ونماذج تحليلية 
Analytic Modeling‏ لحساب الوقت المناسب لمحركات البحثء الذي 
يجب بعذه إعادة تكشيف صفحات الويب How Often a Search Engine‏ 
Should Re-index Web Pages‏ بالاعتماد على معاملين أساسيين هما A and)‏ 
6 لبا الائ Al ee‏ إلى Jl‏ أن بكرن مجر الت جاريا 
Lees‏ احا مخ اة عر اها من ستحات الويت وذلك خلال رة زم 
معينة )2000 .(B) (Brewington & Cybenko,‏ 
ويتضح من العرض السابق أن الدراسات التي ركزت على الملامح العامة للويب 
قد اتخدذت الاتجاه الوصفى التخايلن فى كبر من Ce pels OLA‏ فى أحيان قليلة: 
وقد تمثل هذا الاتجاه فى ستة أبعاد أساسية هى: 
1. معدلات الزيادة في الشبكة العنكبوتية من حيث الخوادم» والمواقع» والصفحات» 
والمستفيدين.. إلخ. 
2 متوسط bly Note‏ القائقة المستخدمة فى صفحات الويب سواء كانت 
روابط داخلية أوروابط خارجية وتأثير ذلك على شهرة صفحات الويب Web‏ 
.Page Popularity‏ 
3 أنواع وأحجام الصفحات والمواقع المتاحة على الويب والبرامج المستخدمة 
في إعدادها والأكواد التي يكثر ترددها في صفحات ومواقع الويب وخصوصاً 
أكواد الميتا أو الأكواد الوصفية: 


4. تحديد شكل الويب من خلال رسم خرائط لاتجاهات الروابط الفائقة 
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والمسارات التي تتخذها من حيث المواقع الجغرافية أو اللغات أو أنواع 
الوثائق فيما يعرف بالبناء الطوبولوجي للويب. 

5 دراسة الطبيعة الديناميكية للويب والمتمثلة فى معدلات الزيادة والنقصان 
والحذف والإضافة والتعديل وأثر ذلك فى أدوات البحث والاسترجاع 


والموضوعي. 


> 11.3 قياس الثبات في محركات البحث 
Measuring Search Engine Stability‏ 


صفحات ومواقع الويب أن تكون ديناميكية أيضاً عند تعاملها مع الوثائق المتاحة 
في تلك البيئة المتغيرة» مما يؤدي إلى نتائج غير ثابتة ومتغيرة في عمليات البحث 
والاسترجاع. وقد wal‏ هذا التغيير الديناميكى إلى ظهور مشكلة رئيسة في استرجاع 
من سيلبرج وايتزوني بتحليل نتائج محركات البحث من خلال تكرار البحث أكثر من 
مرة خلال فترات زمنية معينة. ووجدا أن هناك اختلافاً كبيراً في النتائج المسترجعة 
sl‏ كي مما يكن ةر فا lal AU‏ المت روعن دن دلا ت الزيادة فى 
حجم أو تغير الويب. فأشارا إلى النتائج التي تختفي في قسم ثم تظهر مرات أخرى 
في النتائج العشر الأولى 10 Top‏ وأرجعا ذلك إلى تغيير في عمليات المعالجة 
والتكشيف لتحديد جودة النتائج المطلوبة أثناء وقت المعالجة Selberg & Etzioni,)‏ 
0 زفي دراسة أخرع مطولة قامف يها باراد الان atl‏ قك عام daa Sls‏ 
لجزئين كل جزء نم في 6 شهور: الأول لاختبار مدى ثبات عناوين المواقع والثاني 
إلى التحديث المستمر في محتويات تلك المواقع وعدم الثبات في سياسة موردي 
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الخدمات )1998/9 (Bar-Ilan,‏ وقد قام روزيو بمتابعة يومية لمدة اثني عشر أسبوعاً 
لمجموعة من المواقع المتاحة من خلال محر كات البحث AltaVista and Northern‏ 
Light‏ ووجد عدم ثبات في محرك البحث AltaVista‏ مقارنة بالمحرك Northern‏ 
Light‏ وقد اقترحت ضرورة تجميع بيانات دورية لقياس ملامح الويب ومدى الثبات 
في محركات البحث (Rousseau,.1998/1999)‏ كما أعدت بارا طريقة لتقييم أداء 
محركات البحث ومدى الثبات في أداء تلك المحركات خلال فترة زمنية محددة 
من خلال قياس العناوين التي تنساها محركات البحث (بمعنى عدد العناوين التي 
لا تتابع مدى تحديثها). 


ويتضح مما سبق أن دراسات الثبات ركزت بصفة أساسية على مدى الثبات في عناوين 
المواقع من خلال الخوادم التي تتيحها إلى جانب مدى الثبات في متابعة محركات البحث 
للتغير في عناوين تلك المواقع. هذا وإن كانت الأولى أكثر أهمية من الثانية لأنها بالطبع 
تؤثر في مدى ثبات محركات البحث في متابعة العناوين التي تظهر وتختفي. 


> 11.4 قياس التغطية فى محركات البحث 


من المنطقى أن نعتقد أنه عند بحث الشبكة العنكبوتية فإننا نبحث فى جزء معين 
و ا ك pay‏ اجو اندي sorted‏ اق اة نايت وبرج للق إلى 
طبيعة الشبكة العنكبوتية التي تتميز بأنها موزعة على نطاقات جغرافية كبيرة جدا لا 
يمكن لآي محرك بحث مهما كانت كفاءته وسرعته أن يستطيع تجميع كل صفحات 
ومواقع الويب في جميع أنحاء العالم إضافة إلى النمو المذهل والسريع في حجم 
الشبكة العنكبوتية الذي جعل محركات البحث على الرغم مما تتميز به من أدوات 
تجميع متميزة عاجزة عن متابعة وتحديث صفحات الويب هذا إلى جانب عدم قدرة 
الزواحف على تجميع المواقع والصفحات المتاحة فى الويب غير المرئي والويب 
المظلم. وقد قام كل من بهارات وبرودر بتطوير طريقة لحساب التغطية في محركات 
البحث بدلا من الاعتماد على القيم المحدودة التي تنشرها المحركات حول عدد 
الصفحات التي تغطيها قواعد البيانات. وقد وجد الباحثان أنه من بين أكبر أربعة 
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محركات بحث أن التغطية تتراوح مابين 47-17/ من الصفحات المتاحة على 
الشبكة العنكبوتية. (Bharat, & Broder, 1998b)‏ كما أوضح لورانس وجيل أنه من 
بين أكبر ستة محركات بحث لا يوجد أي من هذه المحركات يغطي أكثر من ثلث 
الصفحات المتاحة للتكشيف Indexable Web‏ وأن أقل المحركات تغطية لا يغطي أكثر 
من 3/ من الصفحات المتاحة للتكشيف (Lawrence & Giles, 1998b)‏ وفى دراسة 
ار داراو اا 2 دا ةن EE pall‏ 
الصفحات» وعدم قدرة محركات البحث على ملاحقة هذا النمو» حيث أوضحا أن 
أكبر محركات البحث من حيث التغطية لا يغطي أكثر من 16./ من الصفحات القابلة 
للتكشيف. وقد أوضح لورانس وجيل أن هذا التناقص المستمر في حجم التغطية 
يرجع إلى فاعلية التكلفة وعائد التكلفة» القيود التكنولوجية التي تفرض على سعة 
عمليات التكشيف والاسترجاع والقيود التي تفرض على سعة الشبكة Lawrence).‏ 
Giles 1999‏ &( وإن كنا نتفق مع كل هذه الأسباب التي طرحت فإننا نضيف أن تركيز 
محركات البحث ينصب على صفحات المعلومات التي تنتج وتتاح من خوادم الدول 
التي تنتشر فيها خدمات الاستضافة في أمريكا وأوروبا والشرق الآسيوي» نظرا 
لسهولة التعرف إليهاء يؤدي إلى تناقص التغطية مع زيادة حجم الصفحات والمواقع 
التي تنشر من دول وبلغات أخرى على الشبكة العنكبوتية. 


يجب أن نشير في هذا السياق إلى أن النتائج السابقة لا يمكن الاعتماد عليها نظراً 
للطبيعة المتغيرة» إلا أنه يوجد العديد من المواقع التي توفر بيانات أكثر حداثة عن 

حجم التغطية في محركات البحث مثل: 
http://www.searchenginewatch.com‏ 


http://showdowns.com 

وقد قام نوتيس بقياس حجم الصفحات والمواقع المتاحة على شبكة الإنترنت بالاعتماد 
كما قام كل من هينزينجر وزملاؤه باختبار مدى تكشيف صفحة معينة في عدد من محركات 
البحث وذلك بالاعتماد على أسلوب الواقعة الحاسمة Critical Incident‏ لتقييم شمول 


الفصل الحادي عشر 


التغطية في محركات البحث» وذلك من خلال تتبع الروابط الفائقة للصفحة للتعرف على 
مدى تكشيف الصفحة الرئيسة والصفحات المرتبطة بها في كل المحركات محل الدراسة 
.(Henzinger, et, el, 1999)‏ كما قام كل من فوغان وثيلوال بقياس التحيز في تغطية 
محركات البحث العالمية Search Engines Coverage Bias‏ وذلك من خلال المقارنة 
بين مدى تغطية الصفحات التجارية والحكومية المتاحة على خوادم 42 دولة. وأوضحت 
الدراسة وجود درجة كبيرة من الاختلاف في تغطية تلك المحركات فعلى سبيل المثال 
وجد أن AltaVista‏ يغطي 82 ./ من المواقع الفرنسية» بينما يغطي فقط /36من المواقع 
المصرية. وقد أثبتت الدراسة تحيز محركات البحث للصفحات المتاحة على خوادم في 
الولايات المتحدة )2004 Vaughan & Thelwall,‏ كما اكتشف كل من موشيوتز وكاوجشي 
طريقة جديدة لقياس التحيز في التغطية 81250655 Coverage‏ من خلال اختبار التتائج التي 
تر [gece‏ آحد ميحركات البحث Lg ny‏ بانتائج الي سترجعها مجموغة من المحركات 
مجتمعة )2002 .(Mowshowitz,‏ كما قام مقداد بقياس مدى تعرف محركين بحث مختلفين 
غلى Ly pl GU Gy p>‏ وقدرقهها على تكشيق al pall ple ply‏ العريية Dl‏ ديق 
أعلى مقايبس التغطية للمواقع العربية )2002 (Moukdad,‏ 


وقد أو ضح مو قع الويب http://www.searchengienswatch.com‏ في ديسمبر من عام 
4 أن محرك البحث جوجل يعد أكبر محركات البحث من حيث التغطية ويبلغ حجم 
قاعدة بياناته 20 بليون صفحة. وقد بلغ حجم قواعد البيانات لعدد من محركات البحث 
الشهيرة مثل Altavista, Alltheweb and Yahoo‏ ما بين بليون إلى 5 بلايين صفحة. ويرجع 
تفوق محرك البحث 000816 إلى أسلوب التكشيف الذي يستخدمه حيث يعتمد على تحليل 
روابط الويب )11 Web Hyperlinks Analysis. (Sullivan. ,2005a, December‏ . 


ET‏ مشركات Sb ata Cel‏ شو الأحيان على الروانط النائقة 
Gb pl‏ إلى il pally Lendl‏ ادي تقد ret gL‏ ستو زان sp SOLAS‏ 
الصعب أن يتم تكشيف صفحة ويب لا تتضمن أي روابط فائقة» كما أوضحت في 
فر اما أ د مجر كات الح ق في المقوينط 57 Lg‏ کی عرق على ct‏ 
صفحة جديدة تضاف إلى الشبكة (Feldman, 1999) ENA‏ 
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ويرى هينزينجر وزملاؤه أنه نظراً لعدم قدرة محركات البحث على متابعة النمو 
الهائل والسريع في حجم الشبكة العنكبوتية فإنه من الأفضل أن تركز تلك المحركات 
على جودة عملية التكشيف. فقاموا بتطوير واختبار طريقة تعتمد على السير العشوائي 
Random Walk‏ بين صفحات الويب وذلك بغرض تقدير قيمة ترتيب الصفحة Page‏ 
Rank Value‏ بين صفحات الويب» كما استخدموا طريقة بهارات وبرودر لتحديد أين 
أن محرك البحث Lycos‏ يعد أفضل محر كات البحث من ناحية متوسط جودة الصفحة 
بالاعتماد على مقياس ترتيب الصفحة )1999 .(Henzinger, et al,‏ 


> 11.5 تقييم التكشيف والاسترجاع من الويب 


عند النظر إلى الشبكة العنكبوتية كبيئة لاسترجاع المعلومات نجد أنها بيئة معقدة 
للغاية. ليس فقط بسبب أن مجموعة الوثائق (صفحات الويب) تتغير باستمرار ولكن 
أيضاً بسبب الاختلاف الواضح بين محركات البحث من حيث عدد الصفحات التي 
يتم تغطيتها في كل محرك على حدة» إضافة إلى أن معلومات الصلاحية الخاصة بتلك 
المجموعات غير متوافرة بصفة عامة» كما أنه من الصعب تقييم مثل هذه المجموعات 
الكبيرة للحصول على معلومات عن مدى صلاحيتها. وعلى الرغم من ذلك» فإن 
الزيادة الكبيرة فى أعداد محركات البحث المتاحة قاد الباحثين بشكل طبيعى إلى 
te dT‏ دلق باك فيو عله cs reall‏ الل مسف ا والتغطية ما E‏ 
إلى العديد من الأبحاث والدراسات التي تتعلق بهذا الموضوع المهم. 

وقد ميز جوردون وباثاك بين نوعين من الدراسات فى هذا الإطار وهما: 
الدراسات التجريبية (Testimonial)‏ والدراسات الوصفية «Shootout‏ على الرغم من 
أن العديد من الباحثين أقاموا إجاباتهم على أساس ملامح عامة وأحداث أو تجارب 
غير منتظمة» فهناك عدد كبير من الدراسات التي حاولت تطبيق معايير صارمة تعتمد 
على نماذج تجريبية في cle‏ المعلومات )1999 (Gordon & Pathak,‏ 


وتعد المراجعات العلمية من أهم المصادر التي تساعد على التعرف إلى معايير 


الفصل الحادي عشر 


تقييم الأداء. ومن المراجعات المبكرة التي تمت للدراسات المتعلقة بقياس أداء 
محركات البحث» ماقام به سشوارتز حيث حلل في مراجعته العلمية الدراسات التي 
حاولت قياس أداء محركات البحث خلال الفترة من 1994 حتى 1998 Schwartz,)‏ 
1998( كما LAT‏ أوبنهيم وزملاؤه إلى الحاجة الملحة إلى مجموعة النماذج والتجارب 
التى تساعد على تحديد معايير لدراسة elo VI‏ فى محركات البحث Oppenheim;)‏ 
-Morris & McKnight, (2000‏ وبالطبع قادت ere‏ إلى سؤال مهمهوما 
هو الشكل الذي ينبغي الاعتماد عليه عند تقييم محركات البحث؟ حيث إن الطريقة 
التقليدية العن سعد إلى أكثر قاس Leal elo‏ و قر لا مو حاتت cathy pte‏ 
دای ا ysl‏ قري د E‏ قاب ی کی كن قباس أداء 
pe‏ کات الت N aa‏ يك التي کے کے وا المحم فى ذا 
القياس حيث يتم التحكم في كل العوامل المحيطة ببيئة النظام من حيث مجموعة 
الوثائق التي تكون ثابتة» الاستفسارات التي تتاح في شكل معياري موحد الوثائق 
الصالحة لاستفسار بعينة ومعروفة مسبقا. وييسر هذا التحكم والضبط المعملي عمليات 
حاب ومقاركة ماس التعقيق وا لاست عاء لمجموفة من | EE‏ عير Ae games‏ 
من النظم المختلفة أو لنفس النظام من خلال التنويع في المعاملات الداخلية الخاصة 
بذلك النظام» بينما نجد أن مقاييس الأداء في البيئات أو النظم العاملة Operational‏ 
Environment‏ أكثر OY [i as‏ مجموعة الوثائق تتغير باستمرار ومجموعة الوثائق 
الصالحة لأي استفسار من الصعب حسابها عمليا. فإذا كان المستفيد منخرطا في 
التجربة نجد أن هناك اختلافات عدة تظهر بين المستفيدين من حيث المعرفة العامة 
وخبرات البحثء إضافة إلى التعقيد الشديد في حساب صلاحية النتائج المسترجعة. 


وقد أشار كل من ليتون وسرفيستافا إلى أن نتائج الدراسات التي تمت في المراحل الأولى 
من بناء محركات البحث لا يمكن الاعتماد عليهاء نظراً لأن هناك العديد من التغييرات التي 
طرأت على ملامح محركات البحث وإمكانياتها والأساليب التي تعتمد عليها في عمليات 
التكشيف والاسترجاع. وقد أوضحا أن الجانب الأكثر أهمية في دراسات محركات البحث 
الآن هو عملية التطوير المستمر لطرق تقييم أدوات البحث على الويب» كما يتم تقديم أو 
طرح أساليب جديد ومبتكرة للتقييم )1999( .Leighton & Srivastava‏ 
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> 11.5.1 التقييم في البيئات التشغيلية الواقعية 


تعد دراسة ديبنج ومارشيونيني من أقدم النماذج لمثل هذه التجارب التي حاولت 
تقييم محركات البحث في بيئتهاء حيث تضمنت الدراسة مقارنة بين الملامح العامة 
لكل محرك بحث. إضافة إلى دراسة تجريبية استخدمت عدد محدود من الاستفسارات 
واختبرت ثلاثة من أشهر محركات البحث في ذلك الوقت هي Infoseek, Lycos,‏ 
OpenText‏ واشتملت الدراسة على تقييم النتائج الصالحة في مجموعة العشرين نتيجة 
الأولى 20 Top‏ لكل استفسار. وقد توصلت الدراسة إلى أنه لا يوجد محرك بحث أفضل 
من الآخر وأن هناك اختلافات واضحة في معالجة الاستفسارات. وقد أدهش الباحثين 
في هذه الدراسة انخفاض معدل التداخل والتكرار بين محركات البحث» كما استخدما 
كفاءة عملية التكشيف وسرعة الاستجابة كمقاييس لأداء محركات البحث )& Ding‏ 
Marchionini, (1996‏ وفي دراسة أخرى لتومايولو وباكر اللذين حاولا استخدام عدد 
Sl‏ عن ال lL eta‏ وصل إلى 200 استفسار لتقييم أداء خمسة محركات البحث هي: 
(Magellan, Point, Lycos, Infoseek, AltaVista)‏ بالاعتماد على معدلات التحقيق 
للنتائج العشر الأولى كمقياس لأداء محركات البحث )1996( .Tomaiuolo & Packer,‏ 
أما شو وروزينسال فقد قيما أداء ثلاثة محركات بحث بالاعتماد على أسئلة مرجعية 
حقيقية تم توجيهها إلى قسم المراجع. وقد اشتمل التقييم على مقاييس أداء أخرى 
مثل وقت الاستجابة» واختيار المخرجات« وجهد المستفيد Chu & Rosenthal,)‏ 
1996( وقد لاحظت شو الحاجة إلى مقاييس تقييم تعتمد على أحكام المستفيد على 
النظام» حيث اقترحت طريقة منتظمة Systematic Methodology‏ تتضمن الاعتماد على 
المستفيدين الحقيقيين الذين يقومون بجمع معلومات عن ملامح المشاركين في النظام؛ 
إضافة إلى معدلات التحقيق وترتيب المستفيدين للصلاحية Relevance Ranking By‏ 
5 ورضاء المستفيدين وقيمة النتائج المسترجعة ككل. وقدتم الاعتماد على هذه 
الطريقة في دراسة رائدة لأعضاء هيئة التدريس وطلبة الدراسات العليا وتوصلت إلى 
اختلافات واضحة بين محركات البحث وذلك من خلال المقارنة بين أربعة محركات 
بحث هي )1997 .AltaVista, Infoseek, Lycos ,OpenText (Su,‏ 


الفصل الحادي عشر 


واستخدم ليتون وسيرفستافا 15 استفساراً لقياس التحقيق في 5 محركات بحث هي 
AltaVista, Excit, HotBot ,Infoseek, Lycos‏ وعلى | غم مخ أن قيمة محركات 
البحث التي قاما بتقييمها قد تكون محدودة مقارنة بما كان متاحاً وقت الدراسة» إلا أن 
مقاييس التقييم التي اعتمدا عليها جديرة بالاهتمام» حيث اعتمدا على مقياس التحقيق 
في العشرين نتيجة الأولى 20 First‏ الذي تم تعديله ليشمل وزن Weights‏ للترتيب ضمن 
النتائج العشرين cols VI‏ واسعخدنا أحكام صلاحية ثنائية Binary Relevance Judgement‏ 
ضمن خمس فئات محددة (غير خطية). (1999 (Leighton & Srivastava,‏ 


ويشير كل من جوردون وباثاك إلى أنه على الرغم من التطوير المستمر في 
محركات البحث إلا أنه لا توجد مقاييس لتقييم الأداء تواكب هذه التطورات» ولا 
يمكن توقع ظهور هذه المقاييس في المستقبل القريب. وتجدر الإشارة إلى أنه مازال 
هناك جدل دائر حول أفضل المقاييس لتقييم أداء محركات البحث”» لأن نتائج 
دراسات استرجاع المعلومات محكومة بماتوفره محركات البحث من معلومات عن 
التطوير وهي معلومات محدودة جداًء كما أن الخوارزميات الجديدة إذا تم توفيرها 
مكدسة وكبيرة مما يصعب تطبيقها. وفي دراساتهما لمحركات البحث وجد جوردون 
وباثاك أن فعالية استرجاع محركات البحث تعتمد بشكل كبير على وظائف المضاهاة 
المتاحة لكل محرك بحث أكثر من اعتمادها على قدرات صياغة الاستفسارات 
وإمكانيات البحث المتاحة. كما لاحظا أيضاً اتخفاض معدلات التداخل والتكرار بين 
محركات البحث سواء كان ذلك للوثائق الصالحة أو الوثائق غير الصالحة Gordon,)‏ 
Pathak, 9‏ &(. 

ويلاحظ بمعظم الدراسات الكلاسيكية في استرجاع المعلومات التي حاولت 
تقييم أداء نظم استرجاع المعلومات من خلال الاعتماد على مقاييس الاستدعاء 


والتحقيق» أن معظم هذه الدراسات ركزت بشكل أساسي على مقياس التحقيق أو 





.(Text Retrieval Conference) TREC Web Track, 2005 أنظر مؤتمر استر جاع النصوص‎ (1) 
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أو بسبب افتراض ساد في تلك المرحلة وهو أن التحقيق أكثر مواءمة لاحتياجات 
المستفيدين من الويب. والاستثناءات قليلة في هذا الإطار منها دراسة كلارك ووليت 
حيث استخدما 30 استفساراً وثلاثة محركات بحث لقياس الاستدعاء فعرضا لطريقة 
جديدة لقياس الاستدعاء فى محركات البحث تعتمد على الاستدعاء المسحوب 
Pooled Recall‏ والذي يتم ad‏ تحديد الوثائق الصالحة من المحركات الثلاثة لكل 
استفسار ويتم تسجيلهم في كشاف كل محرك بحث على حدة مما يؤدي إلى أن 
تكون GU gl Le pores‏ المستر dee‏ سن lS peel‏ الثلاثة اساسا لقياس الاستدعاء 
(Clarke & Willett, 1997)‏ وقد ساعدت هذه الطريقة أيضاً على قياس معايير أخرى 
شملت التغطية» نسبة الوثائق الصالحة التي يحتويها فعلياً كشاف كل محرك. 


وتسعى الاتجاهات الحديثة فى قياس أداء محركات البحث نحو تطبيق معايير 
الجودة es „Quality Standards‏ هذا الأساسن تاقش كل سن ليون وسيرفيستافا 
قضية الطرق التي يمكن الاعتماد عليها في تقييم محركات البحث مثل استخدام عدد 
كاف من الاستفسارات لكي تعطي نتائج إحصائية يمكن الاعتماد عليها في التحليل» 
تجنب التحيز في اختيار الاستفسارات العشوائية في ترتيب محركات البحث» إخفاء 
ited) pla‏ عمق يقومنوة ASTM E‏ من إنصات وعدالة عة الشيع sadly‏ 
عن التحيز تماما )1999 (Leighton & Srivastava,‏ وقد قاما بتقييم دراساتهما السابقة 
في إطار اشتمالها على هذه المبادئ أم لا. وقدم جوردون وباثاك قائمة بسبعة معايير 
ينبغي أن تعتمد عليها الدراسات التجريبية التي تقيم أداء محركات البحث في بيئاتها 
العاملة Operational Environment‏ لكى يمكن اعتبارها دراسة دقيقة وذات دلالة 
وهذه المعايير هي )1999( Gorddu & Pathak,‏ 

1. مستفيدون حقيقيون. 

2. استخدام استفسارات حقيقية. 

3. استخدام عدد كافٍ من الباحثين. 

4. دراسة معظم محركات البحث المعروفة. 

5. الاعتماد على المستفيدين أنفسهم أصحاب الاستفسارات في الحكم على 

جودة النتائج. 
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6. إجراء التجربة بشكل pyle‏ وفقاً لمقاييس الأداء المحددة. 
7. إجراء الدراسة فى بيئة عاملة Operational Environment‏ 


وقد ناقش هاوكنج وزملاؤه هذه القضية المتعلقة بمعايير أداء دراسات التقييم 
وأشاروا إلى ضرورة ترقية ورفع كفاءة اللاستفسارات Query Optimization‏ وفقا 
لإمكانات كل محرك بحث» كما قدموا قائمة مراجعة بالملامح التي يجب أن تتوافر 
في الدراسات المستقبلية لتقييم أداء محركات البحث في البيئات العاملة. وقد 
اعتمدت قائمة هاوكنج وزملائه على القائمة التي أعدها جوردون وباثاك وأضافوا 
إليها مجموعة من الملامح التي تتعلق بطبيعة المستفيدين الذين يقومون بالقياسات 
والاستفسارات التي توجه لمحركات البحث )2001 (Hawking, et. el.,‏ 


> 11.5.2 التقييم في بيئة المختبرات الاصطناعية 


Evaluation In Laboratory Environment 


تتمثل المشكلة الرئيسة في تقييم استرجاع المعلومات من بيئة الويب في تنوع 
محتوى قواعد البيانات التي تشملها محركات البحث» هذا إلى جانب أن بناء 
مجموعة ثابتة من صفحات الويب وجعل هذه المجموعة متاحة للباحثين يسمح 
بإجراء مقارنات بين محركات البحث بالاعتماد على مجموعة البيانات نفسها. على 
الرغم من أن هوكينج وزملاءه أشاروا إلى أن ذلك يتطلب رغبة الشركات الراعية 
لمحركات البحث في استخدام هذه الطرق ونتائج هذه الدراسات وبطريقة إحصائيةه 
فإن الاعتماد على مجموعة من الصفحات الثابتة يسمح للباحثين بفصل مكونات 
نظام الاسترجاع أو خوارزميات تكشيف أو استرجاع محددة في المعامل من أجل 
قياس تأثيرها على الأداء في محركات البحث )2001 (Hawking, et. el.,‏ ويرى كل 
من لاندوني وبيل أن التعاون بين الباحثين في مجال استرجاع المعلومات والباحثين 
في مجال دراسات الويب سوف يقود بالقطع إلى وسائل فعالة لتقييم أداء محركات 
البحث )2000 .(Landoni & Bell‏ 


وقد بدأ خلال السنوات العشر الأخيرة الاهتمام بدراسات الويب من خلال مؤتمر 
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استر جاع النصوص «(Text Retrieval Conference -TREC) http://trec.nist.gov‏ 
avast y‏ لها ارا يعرف بسار Sigs» Web Track gl‏ هنذا المسار إلى ol pat‏ 
تجارب لبناء مجموعات اختبار Test Collections‏ تضاهى أو تماثل بيئة الاسترجاع 
والتكنولوجيا (National Institute of Standard and Technology (NIST)‏ بهدف 
تشجيع الأبحاث والدراسات في مجال استرجاع المعلومات بالاعتماد على مجموعات 
اختبار كبيرة تشجع عمليات التطوير في طرق التقييم» إضافة إلى تبادل أفكار الأبحاث 

وتطبيقاتها فى مجال استرجاع المعلومات من الويب (Voorhees, 2000a)‏ 


ويحصل المشاركون في هذا المؤتمر على مجموعات الاختبار والاستفسارات 
وأحكام الصلاحية التي تسحب لكل الوثائق من خلال مجموعة من المتخصصين 
في إعداد أحكام الصلاحية من داخل المعهد القومي للمعايير والتكنولوجيا. ويعتمد 
الباحثون في هذا المؤتمر على معايير تقييم Standardized Evaluation 81> ps‏ 
-Measures‏ ففي عام 7 عقد أول مسار للويب (Web Track)‏ وتم بناء مجموعة 
من مجموعات الاختبار مخصصة لهذا المسار. وفي المؤتمر الثامن لاسترجاع 
النصوص (8 (TREC‏ تم تجهيز مجموعة اختبار حجمها 2 جيجا بايت (WT2g)‏ 
من صفحات الويب وتم استخدام هذه المجموعة الصغيرة لإجراء بعض الاختبارات 
البسيطة لقياس الأداء في النظم 

المخصصة (Hawking; et. el., 2000) Ad Hoc‏ وفي المؤتمر التاسع تمبناء 
مجموعة تشتمل على 9 جيجا بايت CWT9g)‏ وقد ازدادت هذه إلى 100 جيجا بايث 
WT100g))‏ وتم استخدام هذه المجموعة للمهام والاختبارات الكبيرة على الويب 
باستخدام استفسارات تم تجميعها من الملفات الخلفية لمحركات البحث Search)‏ 
Engine Log Files (Voorhees, 2000b‏ ويتلخص الهدف الرئيس من مسار الويب 
في قياس أفضل الطرق التي تم استخدامها في نظم الاسترجاع التقليدية للتعرف 
على المناسب منها لبيئة الويب من حيث الأداء مع مجموعات الويب» وتجميع 
البيانات من على الويب» هذا إلى جانب تأثير هذه الطرق في المعلومات المترابطة 
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Linking Information‏ كما شهدت هذه المسارات اهتمامات خاصة مثل المقارنة 
بين مخرجات الترتيب البو (Boolean -Rank Output Comparison J‏ وقضايا تتعلق 


بسرعة الاسترجاع ودور الاسترجاع المتوازي Cross Retrieval‏ مثل الاسترجاع als‏ 
اللغات Language Retrieval‏ 01055 . 


> 11.6 أساليب التكشيف 
Indexing Methods‏ 


بالنظر إلى حجم وسعة ومعدلات التغيير والتعديل المستمر في الشبكة العنكبوتية 
يكون من الطبيعي أن تسود نظم التكشيف الآلي التي تعتمد على إمكانيات الحاسبات 
الالية في عمليات التكشيف والبحث. وقد وصف لينش الحاجة إلى التكشيف اليدوي 
والتكشيف الآلي بأنها ضرورة يفرضها تنوع احتياجات المستفيدين وتنوع مصادر 
الويب» حيث يرى أن مهارات التصنيف والاختيار الدقيق التي يمتلكها المكتبيون لا 
ند أن كمليا قدرات کانبات elke‏ الحاسيية الآلى فى AES Les Kee‏ 
كزين المعلوناكة كما آنالطيعة الدبمقراظية a gl)‏ تبه الاشرى المشحات أن 
يقوموا بتكشيف محتويات صفحاتهم بأنفسهم من خلال وصف محتويات الصفحات 
داخل الصفحات نفسها باستخدام معايير الميتاداتا أو مايعرف بما وراء البيانات 
.(Metadata (Lynch, 1997‏ 


فمحركات البحث dole‏ ما تخفى الأسلوب الذي تستخدمه فى تحديد درجة 
التشابه Similarity Score‏ بين الوثيقة ومصطلحات الاستفسارء انیا 
تعتمد على طرق الوزن Weight‏ من خلال تحديد قيمة لكل وثيقة وفقاً لخوارزميات 
وزن المصطلحات المعروفة «Term Weighting Schemes‏ ثم يتم ترتيب الوثائق في 
النهاية وفقاً لأسلوب الوزن المستخدم. ولكن محركات البحث عادة ما تستخدم أكثر 
من معامل واحد لتحديد ترتيب الصفحة» فعلى سبيل المثال نجد أن محرك البحث 
881 يدمح أكثر من طريقة معا لترتيب وفرز النتائج المسترجعة منها تردد 
المصطلحات» موضع المصطلح في الوثيقة» طول الوثيقة» وجود الميتاداتا. وتعتمد 
أساليب التكشيف على الويب على مجموعة من الأساليب التي سنوضحها فيما يلي: 
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> 11.6.1 التكشيف بواسطة الناشرين على الويب 
Indexing By Web Publishers‏ 


يمكن للأفراد أو المؤسسات التي تضع صفحات معلومات على الشبكة العنكبوتية 
أن تقوم بتكشيف محتويات هذه الصفحات من خلال إتاحة مجموعة من الكلمات 
المفتاحية التي تصف بدقة هذه الصفحات والتي يمكن أن تستخدم عند تكشيف 
هذه الصفحات من خلال محركات البحث. من الناحية النظرية هذا يتيح على الأقل 
للأفراد والمؤسسات أسلوبا لتوجيه محركات البحث عندما تقوم بتكشيف صفحاتهم 
من خلال استخلاص المصطلحات الممكنة لتكشيف الصفحات. ويوجد العديد من 
الدراسات التى تمت على هذا الأسلوب. كما ظهر العديد من الخدمات التجارية 
والشركات التي تقدم العديد من الإرشادات التي تساعد الأفراد والمؤسسات على 
وضع المصطلحات المناسبة عند تكشيف صفحاتهم» وتعمل هذه المؤسسات بصفة 
خاصة على تغيير ترتيب الصفحة بحيث يمكن أن تظهر الصفحة ضمن مجموعة 
te‏ الأولى في البحث فيما يعرف بالترقية أو تعظيم الفائدة في محركات البحث 
.Search Engines Optimization‏ بعض هذه المؤسسات تمارس أساليب غير أخلاقية 
لتغيير ترتيب الصفحات Stanley, T. (1997b)‏ 


ويعتبر كود الميتا (Meta-Tag)‏ -أحد أكواد لغة تكويد النصوص الفائقة Hyper)‏ 
Text Markup Language (HTML‏ — من أكثر الوسائل التى يمكن أن يعتمد عليها ناشرو 
ار مو حل اعا E‏ تاقد على رك ار الموضوعى لتك الصفحات» 
وخاصة فى حقل الكلمات المفتاحية Keywords‏ وحقل الوصف 00000 وتخزن 
هذه TENA‏ الملف النصى لصفحات الويب. وتجدر الإشارة إلى أنه ليست كل 
محركات البحث تقوم بتكشيف ME‏ المیتا Meta-Tag‏ فعلى سبيل المثال نجد أن FAST,‏ 
Google, Northern- Light‏ على وجه الخصوص لا يقومون بتكشيف هذا الحقل نظرا 
لأنهم يعتبرونه حقلاً مخادعاً وغير حقيقي لأنه يعتمد على محاولة إقناع محركات البحث 
المعروفة ب 1998 (AltaVista, Infoseek) Turner & Brackbill,‏ 


وقد قام كل من ترنر وبركبيل بتقييم تأثير الميتا تاج في ترتيب الصفحات لمجموعة 
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صغيرة من الوثائق تم إعدادها خصيصاً لهذه الدراسة» حيث اشتملت على مزيج من 
الأكواد. فقد اشتملت مجموعة من الصفحات على حقل الكلمات المفتاحية eha‏ 
ree‏ ار عل شد Perc reece eee‏ 
كل من قل الكلمات المتتاحية Cine ll fie y‏ معا بش اغلت Lah Le games‏ 
من الصفحات من أي من حقول الميتا تاج. وقد وجد الباحثان أن حقل الكلمات 
المفتاحية على وجه الخصوص ساعد بدرجة كبيرة على تحسين موقع الصفحات في 
كل من 1998 .(AltaVista, Infoseek) Turner & Brackbill,‏ 

إلى أي مدى يعتمد ناشرو الويب على استخدام أساليب التكشيف المتاحة من أجل 
وضع ميتاداتا لوصف صفحاتهم؟ هذا سؤال من الصعب الإجابة عنه بصورة مباشرة نظرا 
لأن الدراسات التى أعدت حتى الآن تختلف عن بعضها البعض من حيث مصدر الوثائق» 
معالجة الميتاداتا ™ خلال التجميع الآلي للصفحات باستخدام برامج تحرير صفحات 
الويب. ف فبفحص أكثر من آلف صفحة ويب في بولمير للعلوم Polymer Science‏ وجد 
EE TN‏ فقط من الصفحات تضمنت واحداً أو أكثر من حقول الميتا- تاج 
وعند تقييمها وجد أن المحددات Attributes‏ يساء استخدامها بشكل واضح )& Qin‏ 
(Wesley, 1998‏ وقد eV‏ كل من لورانس وجيل ندرة استخدام حقول الميتاداتا في 
الصفحات والمواقع التي قاموا بفحصها حيث وجدا أن 7.34 من الصفحات تتضمن حقلاً 
مبسطاً للكلمات المفتاحية و/ أو الوصف وأن 7.0.03 (أقل من 1 /) تستخدم معيار دبلن 
المحوري ( 2002 (Lawrence & Giles,‏ . وفي عينة عشوائية مجمعة لصفحات الويب تم 
تجميعها من دليل البحث Yahoo‏ وجد كرافين أن57/ من الصفحات تستخدم الميتا تاج 
وأن 126 من الصفحات تتضمن حقولاً للوصف» بينما استخدم 628 موقعاً معيار دبلن 
المحوري لوصف الصفحات )2000 (Craven,‏ 

وقد ذكرت العديد من الدراسات أن مشكلة تكشيف صفحات الويب تتمثل فى 
قدرة ناشري الويب Web Publishers‏ على معالجة الترتيب من خلال وضع wil‏ 
مفتاحية مكررة في الصفحات لخداع محركات البحث» وهو مايشار إليه بالعديد من 
المصطلحات مثل Search Engine Persuasion .Keyword Spam, Spam-Indexing,‏ 
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Stuffing‏ . ونظراً لأن تردد المصطلحات من العوامل المهمة في خوارزميات الفرز 
والترتيب Ranking Algorithms‏ التي تستخدمها محركات البحث فإن تكرار كلمات 
أو جمل معينة - سواء كان ذلك في حقول الميتاداتا أو في النصوص غير المرئية 
Invisible Text‏ (باستخدام حروف مطبعية صغيرة بنفس اللون المستخدم في خلفيات 
الصفحات) لذلك تظهر هذه الكلمات في النص المصدري للصفحة ولكنها لا تظهر 
في الشكل المعروض على الويب» من خلال أدوات التصفح بحيث لا يمكن للعين 
المجردة أن تراها - يساعد على رفع ترتيب الصفحة ضمن مجموعة الصفحات 
المكشفة والمسترجعة. هذه الطريقة في معالجة الصفحات المكشفة تستخدم كميزة 
تجارية من خلال رفع منتج معين في الترتيب عن غيره من المنتجات المنافسة له 
في السوق أو قد يجذب مستفيدا إلى موقع معين لا يضاهي احتياجاته المعلوماتية. 

وعلى الرغم أنه توجد العديد من صفحات الويب التي قد تحتاج إلى مستوى 
أدق من التكشيف من الذي توفره محركات البحث ولكن كل الحقائق تؤكد أن قدرة 
التكشيف اليدوي على أداء هذه المهمة محدودة جداً خاصة في الجزء القابل للتكشيف 
في الويب -Indexable Web‏ والوضع قد يكون مختلفاً بالنسبة للجزء الخفي من الويب 
Hidden / Invisible Web‏ ويقصد به مجموعة الصفحات الديناميكية والتفاعلية التي تخزن 
في قواعد البيانات أو يتم تجميعها حسب الطلب. وسوف نركز Led‏ يلي من مناقشات 
على أساليب التكشيف الآلي كما تؤديها محركات البحث في بيئة الويب. 


> 11.6.2 التكشيف فى محركات البحث 


يوجد عدد قليل جداً من الدراسات التي تصف محركات البحث من حيث بنائها 
والطرق والخوارزميات التي تستخدمها في عمليات التكشيف والبحث والفرز» على 
الر ومن Lia of‏ العديد سن pil pall‏ الح LTV] clan APEP glen‏ 
مواقع لا يمكن التأكد من صحة معلوماتها نظرا لما تفرضه محركات البحث من 
سرية وتكتم على أساليب التكشيف والفرز التي تستخدمها. ويرجع ذلك بصفة 
أساسية إلى المنافسة الشرسة بين محركات البحث التي تبلغ استثماراتها الآن ملايين 
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الدولارات حتى إن اثنين من هذه المحركات هما Google & Yahoo‏ يحتلان قمة 
معدلات الربح التي تحققها شركات تطبيقات الإنترنت في السنوات الأخيرة. وقد 
أشار كل من جوردون وباثاك إلى أن الخوارزميات الدقيقة التي تستخدمها محركات 
البحث في عملية التكشيف والاسترجاع غير معلنة وتعدها المحركات أسراراً 
لملفات دعم المستفيدين وملفات المساعدة والأسئلة كثيرة التردد FAQ‏ والاستثناء 
الوحيد من بين محركات البحث يتمثل في جوجل Google‏ حيث نشر كل من برين 
البحث جوجل. كما توجد بعض التفاصيل التي تم نشرها من خلال التجارب التي 
العديد من الذراسات Lele Lies‏ لمكونات محركات ال PE E Lge‏ 
وهو برنامج حاسب آلى يقوم دورياً بمسح الشبكة العنكبوتية من خلال تتبع الروابط 
الكلمات (أو بعض أجزاء من (OLAS‏ أو فى بعض الحالات النصوص الفائقة 
Hyper Text‏ من كل صفحة من الصفحات التي يقوم بتكشيفها ثم يقوم ببناء كشاف 
من هذه الكلمات المشتقة. ويتكون محرك الاسترجاع من نموذج الاستفتسار 
Query Module‏ الذي يتلقى الاستفسارات من المستفيدين ونموذج الفرز Ranking‏ 
Module‏ الذي يقوم بمقارنة الاستفسارات بالمعلومات المتاحة في الكشاف ثم ينتج 
فى النهاية قائمة مرتبة بالصفحات Ly‏ لعلاقتها بمصطلحات الاستفسار Arasu,)‏ 
.(et., et., 2002‏ وتصميم هذه المكونات يثير سؤال بحثي مهم يرتبط بإمكانيات 
أداء محرك البحث بمعنى إلى أي مدى تؤثر بنية محرك البحث في أدائه من حيث 
التكشيف والاسترجاع. وتعد الزواحف من أهم مكونات أي محرك البحث والتي 
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CRAWLERS الزواحف‎ 11.6.2.1 > 


تتعامل الزواحف مع الشبكة العنكبوتية على أنها شكل Graph‏ فمن خلال 
استخدامها لمجموعة محددة من معينات المصادر المحددة Uniform Resource)‏ 
Locator-(URLs‏ كنقاط ارتكازية» تقوم هذه الزواحف بمسح الشبكة العنكبوتية 
إما على اتساعها أو عمقها بمعنى أنها إما أن تنتقل من صفحة واحدة ثم تتبع كل 
الصفحات المرتبطة بها من خلال تتبع الروابط الفائقة المتاحة داخل هذه الصفحة أو 
أن تتبع رابط فائق واحد من كل صفحة تقابلها حتى تنتهي من العمق المطلوب في 
تتبع الروابط والذي يتراوح مابين 10-3 روابط في العمق الواحد. 

وقد تناولت الدراسات موضوع الزواحف من ناحية الفعالية والكفاءة في 
الحصول على الصفحات بغرض التكشيف. وعلى الرغم من الارتباط الوثيق بين 
الفاعلية والكفاءة OY‏ خوارزمية الزاحف الفعال تقوم بحفظ المصادر مما يرفع من 
جودة قاعدة البيانات ويجعل أدوات التكشيف تؤدي عملها بكفاءة» إلا أن معظم 
الدراسات ركزت على الفعالية أكثر من الكفاءة. ومن القضايا التي تمت معالجتها 
في هذا الإطار هو كيف يمكن وضع أولويات معينة لمعين المصادر الموحد من 
أجل الحصول على أفضل الصفحات وذلك نظرا لمحدودية قدرة تلك الزواحف 
على تجميع كل الصفحات المتاحة على الشبكة العنكبوتية. 


(URLS)‏ من حيث الأهمية يعتمد على مصفوفة تحدد أهمية الصفحات. وقد 
أوضحوا أن نموذج ترتيب ال URLs‏ الجيد يجعل من الممكن الحصول على جزء 
مهم جداً من الصفحات المتاحة على الشبكة العنكبوتية» بالتالي فان هذا الترتيب 
يساعد على الاختيار من بين الصفحات من أجل الحصول على الصفحات المهمة 
والتخلي عن الصفحات EY‏ أهمية وهو أسلوب معروف لدى المكتبيين منذ القدم 
.(Cho, Garcia-Molina, , & Page, 1998)‏ وقد استخدم JS‏ من ناجورك ووينر 
ترتيب الصفحة Page Rank‏ كأساس لتحديد جودة المصفوفة ووجدوا أن استراتيجية 
الزحف التي تعتمد على التجميع الموسع Vol‏ (بمعنى الانتهاء من كل الروابط في 
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الصفحات المصدرية قبل الانتقال إلى الصفحات الثانوية) تعمل بكفاءة أعلى وتوفر 
مجموعة ذات جودة عالية من الصفحات في المراحل الأولى من عمل الزاحف مما 
يجعلها تتفوق على الزحف العميق )2001 .(Najork & Wiener,‏ 

يعد تحديد الوقت المناسب لإعادة زيارة الصفحات Page Revisiting‏ من المشكلات 
المهمة التي تتعلق بعمل زواحف محركات البحث. وقد اقترح كوفمان وليو وويبر تحليلاً 
نظريا للوقت المثالي لإعادة زيارة الصفحات يعتمد على معدلات التغيير والتعديل في 
الصفحات )1998 (Coffman, et., el.,‏ ومن المشكلات التي تؤثر = جودة وكفاءة 
oles‏ اديت في Led‏ اليانات ترب Sy‏ ردد زمار ال قات pre‏ ماهو الريب 
اليا ا pag E hee‏ دو عراف E‏ 
أجل تحديثها؟ وقد ناقش أرسو وزملاؤه الأعمال التي تم إنجازها لتحديث الصفحات 
واختبارها بدقة بغرض تكشيفها في محركات البحث )2000 -(Arasuet., el,‏ 


ومن القضايا الأخرى التي تمت معالجتها في هذا الإطار تخفيف العبء عن الخوادم 
التي تزورها الزواحف والتنسيق بين مجموعة من الزواحف في عمليات الزيارة بغخرض 
تخفيف الحمل عن الخوادم Server Load‏ بدلا من زيارتها في الوقت نفسه. وقد اقترح 
كوفمان وليو وويبر نموذجاً خطياً Queuing Model‏ لترتيب عمليات الزيارة. يعتمد على 
معدلات الإفادة من الخوادم بمعنى أن يتم تحديد ساعات الذروة في التعامل مع الخوادم 
وتجنب زيارتها في تلك التوقيتات حتى تتمكن من تقديم خدماتها للمستفيدين على أن 
تقوم الزواحف بزيادتها في غير أوقات الذروة )1998 (Coffman, et., el.,‏ 


وتجدر الإشارة إلى أن معظم الزواحف تقوم بتقديم معلومات عن الصفحات 
من أجل تكشيفها. ويتم تخزين هذه المعلومات في مستودعات للوثائق بمحركات 
البحث تربط بين معلومات التكشيف وهذه الصفحات في مواقعها. ومن البدائل التي 
يمكن أن تساعد الزواحف في أداء هذه الوظيفة استخدام أساليب التكشيف الموزع 
Distributed Indexing‏ وتخزين نسخة مخبأة من الصفحات فيمايعرف بالنتائج 
Cashing of Results eras‏ في نظام الحصاد Harvesting System‏ والذي يمكن 
تمثيله من خلال أرشيف الويب )1995 «Bowman, et. e;‏ ومن الجدير SUL‏ أن 
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محرك البحث جوجل يوفر هذه الخدمة وبدأ الكثير من المحركات تتخذ المنحى نفسه 
في تخزين نسخ احتياطية من صفحات ومواقع الويب في الأرشيفات الإلكترونية. 

وبدلاً من زحف وتجميع أجزاء معينة من الشبكة العنكبوتية يمكن للزواحف أن تركز 
على مجالات موضوعية معينة» حيث تسعى الزواحف إلى التركيز على هذه المجالات 
مما يبسر عمليات التجميع. مما يجعلها أكثر شمولاً في التغطية لهذه المجالات إضافة إلى 
سهولة ودقة عمليات التجميع فيما يعرف بالزواحف المتخصصة Specialized Crawlers‏ أو 
الزحف المركز 2000 Focus Crawling) Clarke, et. El.,‏ وعلى الرغم من ذلك فإن تقييم 
أذاء daly il‏ المخضضية عملية le Line‏ نظ | OY‏ الضفحات tale LadLall‏ ما 0p Si‏ 
غير معروفة. وقد اقترح اوميرا وباتل نموذجاً لبناء وصيانة كشافات متخصصة في مجالات 
موضوعية معينة تصلح للنظم الموزعة. 2001 .O’Meara & Patel‏ 


ويرى كل من ديلجينت وزملائه أن تطبيق نموذج النظم الموزعة Distributed System‏ 
Model‏ في عمليات التكشيف يعتمد على أشكال معينة توضح مسار الزواحف الموزعة 
ممايعني أن الزواحف تنجه نحو التطبيق كأداة فردية في بيئة الحاسبات الشخصية 
بمعنى أنها يمكن أن تتعامل مباشرة مع الصفحات التي يتعامل معها جمهور الإنترنت 
(Diligenti, 2000)‏ أي أنها بدلا من تجميع الصفحات من خلال الخوادم فإنها يمكن 
أن تقوم بتجميع الصفحات من خلال زيارة الحاسبات الشخصية لمستخدمي الإنترنت. 
وتجدر الإشارة إلى أن هذا الأسلوب لا يمكن التعويل عليه كثيرا نظرا لتوجه كثير من 
المحركات الكبيرة إلى تطوير إمكاناتها بحيث تصبح بوابات ويب» بالتالي تحتاج إلى 
متابعة أكثر دقة للخوادم المتاحة على الويب لتقديم خدمات أكثر فعالية للمستخدم وفقا 
لاحتياجاته الخاصة فيما يعرف بإضفاء الطابع الشخصي Personalization‏ 


> 11.6.2.2 تقييم خوارزميات الفرز والترتيب 
Evaluation Ranking Algorithms‏ 
تعتمد بحوث ونظم استرجاع المعلومات على عدد من الوسائل أو الأساليب في 
التكشيف والاسترجاع من أشهرها النموذج البوليني Boolean Model‏ نموذج مساحة 
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الزاوية Vector Space Model‏ والنمو ذج الاحتمالي .Probabilistic Model‏ ومن النتائج 
الشائعة في هذه النماذج الثلاثة أسلوب جذع الكلمات «Keyword Stemming‏ استخدام 
قوائم الاستبعاد Stop Lists‏ لاستبعاد الكلمات الشائعة» استخدام نظم تردد ووزن 
المصطلحات Term Frequency and Term Weighting Scheme‏ مثل نمو ذج tfidf‏ 
(Term Frequency) * Inverse Document Frequency‏ بمعنى تردد المصطلحات مضرو ا 
فى عكس تردد الوثائق» إلى جانب معاملات التشابه Similarity Coefficients‏ لحساب 
درجة التشابه بين مصطلحات الاستفسار ومصطلحات الوثائق )1997 .(Korfhage,‏ 


ارتفاع عدد النتائج المسترجعة التي تصل إلى آلاف وأحياناً مئات الآلاف من الصفحات» 
وانخفاض معدلات التحقيق في تلك النتائج» وعدم قدرة تلك المحركات على الاحتفاظ 
ببنية النصوص الفائقة hypertext Structure‏ للوثائق المسترجعة بمعنى الاحتفاظ بقائمة 
النتائج المسترجعة» وضعف تلك المحركات في معالجة استفسارات المفاهيم العامة 
.(General Concept Queries) Kao, et. el., 2000‏ وقد تم استخدام الأساليب المعروفة 
في استرجاع المعلومات لتقييم أداء أدوات الاسترجاع في بيئة الويب في السنوات العشر 
الأخيرة. ثم تمت إعادة تقييم هذه الأساليب لكي تتناسب مع تلك البيئة الديناميكية كما 
تم اختبارها في بيئات شبيهة لبيئة الويب Web Like Environment‏ من خلال استخدام 
أساليب محاكاة الويب Web Simulation‏ في معامل ومختبرات تقييم نظم استرجاع 
المعلومات التي توفرها مؤتمر استرجاع النصوص”" TREC‏ (الذي يعقد سنوياً لتقييم 
أساليب الاسترجاع المتطورة )2000 .(Hawking, et., el,‏ 


وقدكانت محركات البحث المبكرة تكشف فقط أجزاء من صفحات الويب 
ولكن مع الوقت تطور أداء تلك المحركات لتكشف النصوص الكاملة لصفحات 
الويب» ويمكن التماس التفاصيل الكاملة لخصائص محركات البحث من خلال 


مراجعة مو قع .www.searchengineswatch.com‏ 





TREC: Text Retrieval Conference (1) 
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ولكن التفاصيل الكاملة عن أسلوب وزن الصفحات فى الكشافات ووسائل تحديد 
E E sual‏ يها يعر Selle‏ ا وت 
يمكن الإفصاح عنهاء وعلى الرغم من ذلك توجد العديد من الدراسات التي قدمت 
أساليب لفرز النتائج يمكن استخدامها لمعالجة النتائج المسترجعة من محركات 
بحث الويب. فقد قام كل من يوونو ولي بتقييم أربع خوارزميات لفرز النتائج تعتمد 
على مضاهاة المصطلحات Keyword Matching‏ والروابط الفائقة Hyper Links‏ هذه 
الطرق هي (1996 -CYuwono & lee,‏ 

- تنشيط الانتشار البو ليني Boolean Spreading Activation‏ 

Most cited الأكثر استشهاداً‎ - 

- نموذج تردد المصطلحات عكس تردد الوثائق القائمة على مساحة الزاوية 

Tf* idf Vector Space Model 

- تنشيط انتشار الزاوية والتي تدمج بين نموذج مساحة الزاوية وتنشيط الانتشار 


Vector Spreading Activation 


ومن الواضح أنه يمكن تقسيم هذه الأساليب الأربعة إلى: أساليب تعتمد على 
تردد المصطلحات» وأساليب تعتمد على الاستشهادات والروابط بين الصفحات. 
وقد توضلت الدزراسة إلى أن I ILO‏ تعمد غلى كردة المضطلحات تعمل 
بكفاءة أكبر من أساليب تحليل ارط وا ااك كما اقترحا أيضاً استخدام 
الاستفسارات القصيرة لأنها تعمل بشكل أكثر كفاءة من الاستفسارات الطويلة مع 
كل من GILT‏ حساب الكلمات وأساليب تحليل الروابط والاستشهادات. كما أكد 
كلارك وزملاؤه أن مقاييس التشابه المعياري Standard Similarity Score‏ تعمل 
بكفاءة أكبر مع الاستفسارات القصيرة. وقد ساعدت نتائج هذه الدراسة على تطوير 
أساليب لفرز النتائج تعمل بكفاءة مع استفسارات الويب التي عاده ما تتكون من عدد 
قليل من الكلمات. ومن المشكلات التي عالجتها دراسات البحث والاسترجاع على 
الويب مشكلات حجم الكشافات وتنظيم الملفات المتعلقة بتكشيف صفحات الويب 
.(Clarke, et., el, 2000)‏ 
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ومن الأسئلة المهمة التي تم طرحها في العديد من الدراسات ما إذا كانت أساليب 
الاستر جاع التقليدية يمكن أن تحسن من فاعلية أداء أدوات البحث على الويب. 
فقد استخدم سافوي وبيكورد مجموعة من صفحات الويب حجمها 2 جيجا بايت 
2-Gigabyte‏ في مؤتمر استرجاع النصوص لتقييم كفاءة أساليب متعددة لاسترجاع 
المعلومات. حيث قاما بتقييم أساليب مختلفة لوزن المصطلحات منها النظام الثنائي 
«Binary System‏ تردد المصطلحات. تردد المصطلحات مضروبا فى عكس تردد 
الوثائق» تطبيع طول Lis «Document Length Normalization 54 JI‏ تم تقييم 
استخدام قوائم الاستبعاد وجذع مصطلحات الكشاف وتوسيع الاستفسارات. وقد 
تمت كل هذه القياسات لمجموعة من صفحات الويب لتقييم الأداء في بيئة تشبه بيئة 
الويب )2001 (Savoy & Picard,‏ 


وقد حاول هاوكينج وزملاؤه فحص الطرق المناسبة للدمج بين الملامح العامة 
للنظم العاملة مع التجارب المعملية للتغلب على مشكلات مقارنة أساليب استرجاع 
المعلومات التقليدية مع استرجاع المعلومات في بيئة محركات البحث التي تختلف 
إلى حد كبير عن بيئة الاسترجاع التقليدية. فقاموا بمقارنة مجموعات مؤتمر استرجاع 
النصوص التي تم تجميعها في المؤتمر السابع 7 - TREC‏ من خلال استخدام هذه 
المجموعة في فحص كفاءة خمسة محركات بحث من خلال استخدام استفسارات 
oes‏ ف إل سند كتير الامتكسازات الس جو إلى مسر كات الضف Pp‏ ملت 
الدرانية إلى اومس عات لبهت الها تل OU,‏ سن را E‏ م ات 
البحث التي تستخدم في مؤتمر استرجاع الخصوص )2000 .(Hawking, et. el.,‏ 


> 11.6.2.3 استخدام الروابط الفائقة في التكشيف 
Hyperlinks For Indexing‏ 


تعد الروابط الفائقة التي تربط بين صفحات الويب من أهم الملامح التي تميز 


الشبكة العنكبوتية. وعادة ما ينظر إلى هذه الروابط على أنها وسائل الإبحار والتصفح 
الأساسية بالشبكة العنكبوتية. ومع ذلك فإن الروابط الفائقة تتضمن معلومات يمكن 
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استخدامها عند تكشيف واسترجاع صفحات الويب. وترجع أهمية المعلومات التي 
تحويها الروانط الفائقة ليس فقط إلى قيمة الروابط؛ ولكن أيضاً إلى أهمية الوثائق 
المرتبطة بالوثائق المصدرية» ومدى * شعبيتهاء والتي يمكن تحديدها من خلال كثرة 
الإشارة إلى وثيقة معينة مما يعني أهمية هذه الوثيقة قة وارتباطها بعدد كبير من الوثائق 

وقد طور كلينبرج نظرية الروابط الناتجة عن البحث الموضوعي Hyperlink-‏ 
Induced Topic Search HITS‏ والتى عادة ما تعرف بنظرية النقاط الارتكازية 
والأسانيد oo -Hubs and Authorites‏ المهم التعرف إلى مفهوم النقطة الاتكازية 
والأسانيد في هذه النظرية. 

النقطة الارتكازية Hubs‏ هي عبارة عن الصفحة التي تشير إلى مكان وجود 
المعلومات بالتالي فهي تؤشر إلى عدد كبير من الأسانيد. على سبيل المثال دليل 
Ley Col‏ نقطة رتكازية آر فة قات المقررات يمر قم الجاستة الاي DUES‏ 
الارتكازية تشبة قائمة المحتويات أو الكشاف. 


الأسانيد :Authorities‏ كما أن السند هو الموقع الذي توجد به المعلومات والذي 
يرتبط بالعديد من النقاط الارتكازية. فعلى سبيل المثال الصفحات التي تشتمل على 
المعلومات الواقعية مثل صفحة المقرر بموقع الجامعة أو صفحة المجلة التي يوجد 
بها المقالات. 


وأشار إلى أنها الصفحات التي تتضمن عدداً كبيسراً من الروابط التي تربطها 
بمجموعة من الصفحات الاستنادية الصالحة Relevant Authoritative Pages‏ 
والأسانيد Authorities‏ (وهى الصفحات التى يشار إليها من خلال عدد من النقاط 
الاتكازبة):فالاستفساودات اراس الت اعدد كيرا من التاق الضالحةغادة 
ماتعمل على استرجاع كل من الوثائق الصالحة وأسانيد gl) Authoritative‏ الوثائق 
المرتبطة بالوثائق الصالحة» وهو ما عرف في عالم قواعد البيانات الببليوجرافية فيما 
بغعد ب الوكاقق البوقظة أو Cg‏ 


وقد اقترح كلينبرج خوارزمية النقاط الارتكازية والأسانيد لكى تستخدم في تحديد 
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الصفحات الاستنادية Authoritative‏ بالاعتماد على بنية الروابط» وللتعرف على 
مجموعة متميزة من الوثائق الصالحة المرتبطة ببعضها البتعض. وقد أحدث هذا النموذج 
ر کر ئی ور كاك od‏ اتی طورك سن انناب ارالك نيت 
ae eee‏ جاع الصفحة والصفحات الشبيهة Similar Page‏ كذلك أصبح من الممكن 
ce‏ الصفحة والصفحات المرتبطة بها 1998 .(Related Pages) Kleinberg,‏ 





Authority Pages 


Hub and expert pages link to many authority pages 
on a given topic. 


D BS 
Cats 
32 ' ` 32 ٠ ` 
54 x 4 x 
7 | ` 7 | ` 
« ۴ y « 9 لا‎ 


An authority page, in turn, is linked to by many 
topically relevant hub and expert pages, and may 
rank higher for associated search terms. 











شكل )1/11( نظرية النقاط الارتكازية والأسانيد 2000 Kao, et, el.,‏ 
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واقترح كل من لمبل وموران طريقه أخرى للتعرف على الروابط بين صفحات 
الويب تعتمد على بنية الروابط Link Structure‏ تعرف بالمشي العشوائي في الأشكال» 
وذلك من خلال رسم شكل لطبيعة العلاقة بين الصفحات واختيار الصفحات 
عشوائياًء وهي طريقة أكثر كفاءة من الناحية الحسابية من خوارزمية كلينبرج» نظرا 
لأنها لا تحتاج إلى كثير من المعالجات )2000 (Lempel & Moran,‏ ولعل si‏ 
الطرق المعروفة والمعلنة لفرز الصفحات باستخدام الروابط الفائقة تعرف بخوارزمية 
فرj‏ الصفحة .PagerRank Algorithm‏ التي La) ob‏ باج وزملاؤه )1998 (Page et al,‏ 
والتي تعمل على حساب قيمة لكل صفحة من الصفحات المسترجعة والتي تتحدد 
على أساس عدد الروابط في كل صفحة (من وإلى كل صفحة). وتعد خوارزمية فرز 
الصفحة من أهم الملامح المميزة لمحرك البحث جوجل )1998 Brin & Page,‏ 


ولقد تم توسيع خوارزمية كلينبرج لتنضمن تكشيف النصوص إلى جانب تكشيف الروابط 
واستخدامها في فرز النتائج» من خلال تطوير مجمع إلى Automatic Resource see‏ 
(Compiler) - ARC‏ لكي يقوم بتجميع قوائم بمصادر الويب في موضوعات عريضة. كما 
نانش كل سن ارات وزير يعض المه OK‏ اي سمل Leigh be‏ كلبصرع لرا 
والتى تشمل جرف أو سحب الموضوعات Topic Drift‏ والتى لا تمثل موضوعات رئيسة 
Laili‏ للنقاط الارتكازية والأسانيد المرتبطة بها .(Bharat & Henzinger,1998)‏ 


ومن الاستخدامات الأخرى للروابط الفائقة تطبيق خوارزمية تعرف بسلسلة 
التنشيط الو اسع (Constrained Spreading Activation)‏ بغر ض توسيع نطاق البحث 
لتحسين معدلات الاستدعاء» حيث تبدأ هذه الطريقة بصفحة أو مجموعة صفحات 
صالحة Relevant Pages‏ ثم تنتشر من خلال شبكة الروابط بين الصفحات لتقوم 
بحساب درجه التشابه Similarity Score‏ لكل صفحة» ثم تحدد إلى أي درجة يمكن 
فرز هذه الصفحة وعرضها للمستفيد. وعادة ما تحدد المحركات نقطة معينة Lats‏ 
يتم تجاهل الصفحة تماماً والنظر إلى غيرها. وقد تم تطويره ويعرف ب Web Search)‏ 
By Constrained Spreading Activation (WebSCSA‏ لكي يعمل مرتبطا بمحركات 
البحث في مختبرات TREC‏ وقد أثبتت نتائج الدراسات تحسين معدلات الاستدعاء 
باستخدام هذه الطريقة بنسبة 30 ./ )2000 (Crestan & Lee,‏ 
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ويرى كاو وزملاؤه إمكانية استخدام المعلومات المتاحة في الروابط الفائقة بطريقة 
مختلفة تعتمد على دعم تكشيف نقاط المرتكز Anchor Point Indexing‏ وقاموا 
بتعريف النقاط المرتكزة على أنها مجموعة صغيرة من الصفحات المفتاحية والتي 
يمكن من خلالها الوصول إلى مجموعة مطابقة من الصفحات بسهولة وبسرعة مما 
bib,‏ على بنية الوثائق المرتبطة Hyperlinked Documents‏ على الويب» وهي تشبه 
النقاط الارتكازية 2000 .(Hubs (Kao, et, el.,‏ 


وقد أشار كل من سينجال وكيسزكيل إلى أن نتائج دراسات مسار الويب في مؤتمر 
استرجاع النصوص أظهرت أن الاعتماد على طرق دعم الروابط فقط لا تقدم أي ميزة 
إضافية عن طرق تكشيف الكلمات وحدها )2001 .(Singhal, & Kaszkiel,‏ هذه 
التتائج تتعارض تماماً مع ماهو معروف في مجتمع استرجاع المعلومات على الويب. 
ومن الأسباب التي أدت بهم إلى هذه النتيجة أن بيئة مسار الويب في مؤتمر استرجاع 
النصوص تفضل استخدام تكشيف الكلمات المفتاحية عن تكشيف الروابط نظراً 
لاشتمالها على صفحات قديمة (Dated Test Collection)‏ بمعايير الويب إضافة إلى 
أحكام الصلاحية التي تفضل الصفحات عن المواقع. وقد أوضحوا أن محركات البحث 
التي تعمل في بيئة الوبب أكثر كفاءة من محركات البحث المستخدمة في TREC‏ في 
عمليات الحصول على صفحة معينة لمؤسسة أو لفرد. ومع ذلك فإن كرسويل وزملاءه 
أشاروا إلى أن طرق الاسترجاع التي تعتمد على تحليل النصوص المرتكزة Anchor Text‏ 
المشتقة من الصفحة المصدرية أو الرابط المصدري أفضل بكثير من تكشيف المحتوى 
النصي للصفحة الاستنادية (المرتبطة) )2001( -Craswell., Hawking & Robertson,‏ 


> 12.6.2.4 نموذج Julai‏ الروابط 
Link Analysis Model‏ 
يعرف هذا النموذج في الإنتاج الفكري المتخصص بنموذج 5 5 الصفحة Page‏ 
Rank‏ وقد ابتكر هذا النموذج طالبان من طلبة الدراسات العليا في كلية الحاسبات 
والمعلومات بجامعة ستنافورد وهما Sergey Brin and Lawrence Page‏ ويعتمد هذا 
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النموذج على استخدام نموذج تحليل الاستشهادات المرجعية» والذي يفترض وجود 
علاقة بين المقالات المستشهدة والمقالات المستشهد بها. بالتالي يمكن استخدام 
الاستشهاد المرجعي في التعرف إلى تأثير المقالة في المجال المعرفي بأكمله. وقد 
ابتكر العالم Eugene Garfield‏ انا يعرف بمعامل التأثير The Impact Factor‏ 
والذي يمكن من خلاله قياس مدى تأثير دورية علمية معينة في أحد المجالات. 
ومعامل التأثير هو عبارة عن متوسط عدد الاستشهادات بمقالات دورية معينة خلال 
عام معين وذلك بعد نشرها بعامين على الأقل. ويعرف هذا المعامل أحياناً بمعامل 
توقيع الذكاء .The Signature of Intelligence‏ 

وكما هو الحال في العلاقة بين مقالات الدوريات والاستشهادات نجد أن روابط 
الويب Web Links‏ عبارة عن صلة ديناميكية تشير إلى روابط أخرى وهذه الروابط 
تشير أيضاً إليها. بالتالي نجد أن نموذج ترتيب الصفحة يستخدم العلاقات القائمة بين 
صفحات المعلومات المتمثلة في الروابط التي تربط بين تلك الصفحات على اعتبار 
أنها أكثر موضوعية من غيرها من المقاييس التي تعتمد على مقاييس بشرية ذاتية. 
فتكرار الإشارة إلى صفحة معينة يشير إلى قيمة هذه الصفحة كما يؤكد علاقتها 
القوية بالعديد من الصفحات. كما أنه يعتبر من المقاييس القوية التي تشير إلى كفاءة 
الصفحة وجودتها وذلك مقياس في غاية الأهمية نظراً لما تعانيه الشبكة العنكبوتية 
وخاصة صفحات المعلومات من التقص الشديد في معايير الجودة «Quality Control‏ 
بالتالي فهذا النموذج يوفر مقياساً موضوعياً لجودة الصفحات. كما يعتمد نموذج 
ترتيب الصفحة على استخدام طبيعة الويب المكونة من مجموعة من الصفحات 
المرتبطة ببعضها البعض في تحديد ترتيب وأهمية الصفحة ضمن مجموعة الصفحات 
المرتبطة بها )2001 (Meghabghab,‏ 

ويتم تحديد ترتيب الصفحة ound Lad, Page Ranking‏ ال و انط الموجصودة 
في الصفحة In-degree of Links‏ والتي أشار إليها كلينبرج بالنقاط الارتكازية» 
وعدد الروابط التي تشير إلى الصفحة Out-degree of Links‏ والتي أشار إليها 
بالأسانيد. 
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وقد اعتمد القائمون على بناء محرك البحث جوجل على مجموعة من الخرائط 
095 التى قاموا بتجهيز ها وتضمنت ما يقرب من 518 مليون وحدة من الروابط الفائقة 
Hyperlinks‏ لكى [tes‏ عينة متميزة للعلاقات التي تربط بين صفحات المعلومات 
غ الشركة ool‏ ود تهلاات س Ai iy‏ 
مدى قوة العلاقة التي تربط بين مجموعة من الصفحات» ثم ترتيب هذه الصفحات 
من خلال الاعتماد على تحليل ما تحويه من روابط داخلية تربطها بصفحات أخرى 
والروابط الخارجية التي تربط الصفحات الأخرى بها. ويتميز هذا المقياس بأنه 
ا EE sich olay Cs‏ و ا ا ات 
بناء على مدى ا بالنسبة للصفحات الأخرى سواه بالإشارة إلى هذه الصفحات 
أو بالإشارات التي تتلقاها الصفحة من الصفحات الأخرى. ويتم حساب عدد الروابط 
الموجودة في الصفحة وتشير إلى صفحات أخرى كما يتم حساب عدد الروابط التي 
تشير إلى الصفحة المصدرية ثم يتم تطبيع Normalization‏ هذه الحسابات لتحديد 
قيمة تشابه Similarity Score‏ بين الصفحة والصفحات أخرى. وتتم عملية التطبيع 
وفقا للمعادلة التالية: 


نفترض أن الصفحة A‏ مرتبطة بصفحات أخرى تشير إليها (Point to it)‏ وعددها 
T1------Tn‏ والمعامل d‏ هو معامل ثابت ما بين )0 - 1( وعادة ما يأخذ القيمة 0.85 
إلافى Ll OYE‏ سنوضحها فيما بعد. وتشير © إلى عدد الروابط الخارجة من 
ال وتشير إلى صفحات أخرى (Point to other Pages)‏ بالتالي يكون حساب 
ترتيب الصفحة PR (A)‏ كما يلي: 


PRe (A) = (1-d) + d (PR(T1) / C (T1) +------------ PR(Tn) / C (Tn) 


نلاحظ من المعادلة أن ترتيب الصفحة Page Rank‏ يمثل توزيع احتمالي 
Probability Distribution‏ لكل صفحات الويب Over Web Pages‏ مما يسمح بترتيب 
اقحات LG‏ وها Ated‏ 


ويتم حساب معامل آخر لترتيب الصفحة يعتمد أيضاً على بنية الروابط Link‏ 
Structure‏ وهو معامل يتعلق بسلوك المستفيدين عند التعامل مع الصفحة. وهذا 
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المعامل يتعلق بمعدلات الإفادة من صفحة معينة» مما يعني أن المستفيد يمكن 
أن يغير من ترتيب الصفحات وفقاً لمدى استخدامه لهذه الصفحات. ويتم تحديد 
مدى BLY‏ من صفحة معينة La g‏ لعدد مرات النقر على الرابط الفائق المتعلق بهذه 
الصفحة في كل مرة تظهر فيه هذه الصفحة ضمن نتائج البحث» حيث يتم تعديل 
قيمة المعامل 4. فإذا قام المستفيد بفتح الصفحة التي تظهر في ترتيب 3 مثلاً ولم 
يفتح الصفحة التي تظهر في الترتيب 1 يعتبر محرك البحث جوجل أن هذا إعلان 
من المستفيد أن الصفحة 3 أفضل من الصفحة 1 بالنسبة لهذا الاستفسارء مما يجعل 
محرك البحث يعدل من قيمة المعامل d‏ الخاص بترتيب الصفحة 3. ومع تكرار 
هذه العملية من جانب أكثر من مستفيد قد يؤدي ذلك إلى ظهور الصفحة 3 قبل 
الصفحتين 2.1 إذا كان سلوك كل أو معظم المستفيدين منها يسير في الاتجاه نفسه. 
ويعتبر هذا المقياس أيضا من المقايبس الديمقراطية التي تميز محرك البحث جوجل 
عن غيره من المحركات. وتعرف عملية تعديل قيمة المعامل d‏ برد فعل الصلاحية 
Relevance Feedback‏ والذي يتوقف على مجموع سلوك المستفيدين من صفحة 
معينة خلال فترة زمنية معينة )2005 Wall,‏ 


> 11.6.2.5 نصوص الزاوية 


Anchor Text 


تتم معاملة النصوص التي تعبر عن الروابط في الملف المصدري Source File‏ وهو 
الملف الذي يشتمل على أكواد لغة تكويد النصوص الفائقة La Jy HTML‏ خاصة 
في محرك البحث جوجل. حيث تتعامل معظم محركات البحث التي تستخدم أسلوب 
تحليل الروابط Link Analysis‏ مع الروابط التي توجد داخل الصفحة وتكشف النصوص 
التي توجد داخل هذه الروابط» بينما يكشف محرك البحث جوجل الروابط التي تشير 
إلى الصفحة Point to it‏ ولهذه الطريقة العديد من المزايا ومنها )2005 ,5201]5): 





Page Rank اختصار لترتيب الصفحة‎ PR” 
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Yi °‏ نصوص الزاوية Anchor Text‏ التي عادة ما تتضمن وصفاً دقيقاً لصفحة 
E EE‏ ا ف جا ال EE‏ لساك اا صف 
الموضوع الذي تتناوله» وهو afia‏ العديد من الدراسات» حيث إن هذه 
النصوص تمثل عناوين الموضوعات الرئيسة التي تتناولها هذه الصفحات. 

٠‏ ثانياً: نصوص الزاوية تساعد على تكشيف الصفحات التي لا يمكن تكشيفها 
من خلال محركات بحث نصية Text Based Search Engines‏ بالتالى يمكن 
استخدام هذه النصوص في تكشيف الوسائط المتعددة Multimedia‏ مشل 
ملفات الصوت,. والفيديوء والصور» وبرامج الكمبيوتر» والخرائط» وقواعد 
البيانات.. الخ. 


٠‏ ثثلثاً: تساعد نصوص الزاوية على تكشيف صفحات لم تقم الزواحف 
9 بتجميعها أو زيارتهاء بالتالي يمكن من خلال هذا الأسلوب تجميع 
أكبر عدد ممكن من الصفحات أو التعرف إليها دون الحاجة إلى زيارة 
الخوادم التي تستضيفهاء خاصة إذا ما عرفنا أن هذه الزواحف عادة ما تكون 
متحيزة جغرافياً ولغوياً في تغطيتها. وهو ما جعل محرك البحث جوجل من 
أكبر محركات البحث وأشملها من حيث حدود التغطية سواء الجغرافية أو 
اللغوية أو الموضوعية أو وفقاً للأسماء السائدة .Domain Names‏ وتجدر 
الأشبارة ها إلى أن عت المبوة قد تلب الى غب كبر ON beady‏ 
كثيرة» حيث إن محرك البحث يمكن أن يسترجع نتائج لصفحات لم يزرها 
الزاحف مطلقا ويتأكد من وجودهاء وهنا يظهر دور المعامل d‏ والذي يأخذ 
القيمة صفر فى حالة الروابط الميتة Dead Links‏ أو الروابط التى تشير إلى 
صفحات غير موجودة. 

وقد استخدمت فكرة توسيع التغطية من خلال التعامل مع نصوص أقواس 

الزاوية Anchor Text Propagating‏ للصفحات التى تشير إلى الصفحات المصدرية 
في محرك البحث WWW WORM‏ وهو أول محرك بحث يتضمن زاحفاً - تم بناؤه 
عام 4 - لتكشيف الصفحات غير النصية -Non Textual Pages‏ ويعد استخدام 
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نصوص أقواس الزاوية عملية في غاية الصعوبة نظراً لضخامة حجم البيانات التي 
يتم معالجتهاء حيث إن معالجة 24 مليون صفحة مثلاً تتطلب على الأقل معالجة 259 
مليون نص زاوية وفقاً لما أعلنه محرك البحث جوجل في عام 2010 بمتوسط 10.8 
نصوص زاوية للصفحة الواحدة )2002 (Sullivan,‏ 


وإضافة إلى استخدام الروابط ونصوص الزاوية في تكشيف الصفحات يقوم محرك 
البحث جوجل بتحديد موقع الرابط Link Location‏ لتحديد أهمية الرابط في الصفحة. 
فتعد الروابط التي تأتي في عناوين منفصلة أكثر أهمية من الروابط التي ترد ضمن نص 
ماء والروابط التى ترد فى المحتويات والفئات التى تتضمنها الصفحة أكثر أهمية من 
الروابط التي ترد في عناوين فرعية. كما يستخدم محرك البحث جوجل أساليب التكشيف 
التقليدية Ho‏ أسلوب تردد المصطلحات ‘Term Frequency‏ التكشيف التجاوري 
Proximity Indexing‏ وأساليب وزن المصطلحات .Term Weighting Schemes‏ 


من ثم فإن نظام ترتيب الصفحة Page Rank‏ يعتمد على الطبيعة الديمقراطية 
الفريدة في الويب» وذلك باستعمال الارتباطات Hyperlinks‏ كدليل إلى أهمية صفحة 
معينة. بمعنى أن جوجل يفسر الارتباط من صفحة 4 إلى الصفحة 8 على أنه تصويت 
من الصفحة A‏ لمصلحة الصفحة 8. لكنه لا ينظر فقط إلى كمية الأصوات (أي 
الارتباطات الموجهة إلى صفحة معينة)» بل يحلل الصفحة التي تقوم بالتصويت. 
فإذا كانت الصفحات التي تصوّت «مهمة»» أعطاها ذلك وزناً أكبر» وجعل الصفحات 
الأخرى التي تصوّت لها مهمة أيضاً. 

تحصل المواقع المهمة عالية الجودة على ترتيب Page Rank‏ أعلى» الأمر الذي 
يتذكره جوجل في كل مرة يجري بحثا. طبعاء لا تعني الصفحات المهمة لك شيئا إن 
كانت لا تطابق بحفك. لذلك يجمع جروجل يبن Page Rank‏ وتقيات مطابقة النضص 
Text Matching‏ المعقدة ليجد صفحات مهمة وتلائم موضوع البحث على السواء. 
ولاايتوقف جوجل عند عدد المرات التي تظهر فيها عبارة معينة في الصفحة» بل 
يفحص كل أوجه محتويات الصفحة (ومحتويات الصفحات المرتبطة بها) ليعرف ما 
)13 كانت مطابقة للبحث el‏ لا )2005 (Google,‏ 
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< خاتمة 

تناول هذا الفضل عرضاً IL‏ والتقنيات المستخدمة فى تكشيف» وتحليل؛ 
واسترجاع» وفرز صفحات الويب من خلال محركات البحث التي تعد أهم أدوات 
البحث عن المعلومات على الويب. كما استعرض أساليب تقييم محركات البحث 
ومعايير تقيبم الأداء التي اعتمدت مبدئياً على الأساليب التقليدية المعروفة في نظم 


استرجاع المعلومات» ثم ابتكر الباحثون مجموعة من الأساليب الجديدة التي تتناسب 
مع بيئة الويب وما تتميز به من طبيعة ديمقراطية وديناميكية وتفاعلية. 


وقدثيت من خلال دراسات استرجاع المعلومات أن دراسات الويب من 
القطاعات النشطة في الوقت الحالي في مجالات البحث والتطوير؛ نظراً لأهمية 
هذه البيئة للباحثين والمؤسسات المسؤولة عن التطوير على حد سواء. وقد ثبت 
أيضاً أن البحوث ركزت خلال السنوات العشر الأخيرة» والتي شهدت نمو وتطور 
محركات بحث الشبكة العنكبوتية» على ظهور ونمو أساليب مبتكرة للتكشيف 
والاسترجاع كان على رأسها استخدام الروابط الفائقة في تحديد شهرة صفحات 
الويب. كما شهدت أيضا دورا ملموسا لكل من معايير الميتاداتا وتحديد LAI)‏ 
0 واستخلاص الو ثائق Document Summarization‏ وتجميع النتائج 
المسترجعة في عناقيد Result Clustering‏ واستخدام الأشكال في عرض النتائج 
.Results Visualization‏ هذا إضافة إلى النمو السريع والهائل في بناء أدوات ببحث 
واسترجاع الوسائط المتعددة. وكل هذه الأساليب تسعى إلى تجميع صفحات ومواقع 
الويب في فئات موضوعية لتيسير التعامل معها كبيئة لاسترجاع المعلومات. وهو 
مايؤكد ويبرز الدور الذي يمكن أن تلعبه أدوات أخرى لاسترجاع المعلومات مثل 
مر كات Cred!‏ المتعددة (ماوراء المح ركات) وبوابات LSI Ope Vy a SI‏ 
كل هذه التطورات تؤكد أهمية الدور الذي تلعبه بحوث التطوير في مجال استرجاع 
المعلومات وأساليب التكشيف ودفع النتائج على الويب. 
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